{
  "best_global_step": 19080,
  "best_metric": 0.4492145776748657,
  "best_model_checkpoint": "saves_multiple/p-tuning/llama-3-8b-instruct/train_codealpacapy_456_1765235666/checkpoint-19080",
  "epoch": 20.0,
  "eval_steps": 1908,
  "global_step": 38160,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.002620545073375262,
      "grad_norm": 25.2188663482666,
      "learning_rate": 1.0482180293501048e-06,
      "loss": 4.638,
      "num_input_tokens_seen": 3808,
      "step": 5
    },
    {
      "epoch": 0.005241090146750524,
      "grad_norm": 34.37373733520508,
      "learning_rate": 2.358490566037736e-06,
      "loss": 4.901,
      "num_input_tokens_seen": 6432,
      "step": 10
    },
    {
      "epoch": 0.007861635220125786,
      "grad_norm": 40.27897262573242,
      "learning_rate": 3.668763102725367e-06,
      "loss": 4.3476,
      "num_input_tokens_seen": 9120,
      "step": 15
    },
    {
      "epoch": 0.010482180293501049,
      "grad_norm": 40.88486099243164,
      "learning_rate": 4.979035639412998e-06,
      "loss": 3.4924,
      "num_input_tokens_seen": 11776,
      "step": 20
    },
    {
      "epoch": 0.01310272536687631,
      "grad_norm": 63.289432525634766,
      "learning_rate": 6.289308176100629e-06,
      "loss": 2.6376,
      "num_input_tokens_seen": 15968,
      "step": 25
    },
    {
      "epoch": 0.015723270440251572,
      "grad_norm": 16.58444595336914,
      "learning_rate": 7.59958071278826e-06,
      "loss": 1.5208,
      "num_input_tokens_seen": 20704,
      "step": 30
    },
    {
      "epoch": 0.018343815513626835,
      "grad_norm": 13.671472549438477,
      "learning_rate": 8.90985324947589e-06,
      "loss": 1.0178,
      "num_input_tokens_seen": 23264,
      "step": 35
    },
    {
      "epoch": 0.020964360587002098,
      "grad_norm": 23.99169921875,
      "learning_rate": 1.0220125786163522e-05,
      "loss": 1.0609,
      "num_input_tokens_seen": 26784,
      "step": 40
    },
    {
      "epoch": 0.02358490566037736,
      "grad_norm": 3.5392003059387207,
      "learning_rate": 1.1530398322851153e-05,
      "loss": 0.6975,
      "num_input_tokens_seen": 30144,
      "step": 45
    },
    {
      "epoch": 0.02620545073375262,
      "grad_norm": 5.033517837524414,
      "learning_rate": 1.2840670859538784e-05,
      "loss": 0.6271,
      "num_input_tokens_seen": 33216,
      "step": 50
    },
    {
      "epoch": 0.028825995807127882,
      "grad_norm": 4.656372547149658,
      "learning_rate": 1.4150943396226415e-05,
      "loss": 0.6991,
      "num_input_tokens_seen": 36768,
      "step": 55
    },
    {
      "epoch": 0.031446540880503145,
      "grad_norm": 4.351978302001953,
      "learning_rate": 1.5461215932914046e-05,
      "loss": 0.776,
      "num_input_tokens_seen": 40288,
      "step": 60
    },
    {
      "epoch": 0.034067085953878404,
      "grad_norm": 4.150622367858887,
      "learning_rate": 1.6771488469601677e-05,
      "loss": 0.6788,
      "num_input_tokens_seen": 43520,
      "step": 65
    },
    {
      "epoch": 0.03668763102725367,
      "grad_norm": 2.208378553390503,
      "learning_rate": 1.8081761006289308e-05,
      "loss": 0.5108,
      "num_input_tokens_seen": 46816,
      "step": 70
    },
    {
      "epoch": 0.03930817610062893,
      "grad_norm": 1.2950632572174072,
      "learning_rate": 1.9392033542976942e-05,
      "loss": 0.6148,
      "num_input_tokens_seen": 49664,
      "step": 75
    },
    {
      "epoch": 0.041928721174004195,
      "grad_norm": 1.3634374141693115,
      "learning_rate": 2.070230607966457e-05,
      "loss": 0.6104,
      "num_input_tokens_seen": 53088,
      "step": 80
    },
    {
      "epoch": 0.044549266247379454,
      "grad_norm": 5.367660045623779,
      "learning_rate": 2.20125786163522e-05,
      "loss": 0.6743,
      "num_input_tokens_seen": 56608,
      "step": 85
    },
    {
      "epoch": 0.04716981132075472,
      "grad_norm": 3.389104127883911,
      "learning_rate": 2.3322851153039832e-05,
      "loss": 0.6204,
      "num_input_tokens_seen": 59904,
      "step": 90
    },
    {
      "epoch": 0.04979035639412998,
      "grad_norm": 2.0232012271881104,
      "learning_rate": 2.4633123689727463e-05,
      "loss": 0.5507,
      "num_input_tokens_seen": 63392,
      "step": 95
    },
    {
      "epoch": 0.05241090146750524,
      "grad_norm": 6.504831314086914,
      "learning_rate": 2.5943396226415097e-05,
      "loss": 0.7278,
      "num_input_tokens_seen": 65952,
      "step": 100
    },
    {
      "epoch": 0.055031446540880505,
      "grad_norm": 2.7798452377319336,
      "learning_rate": 2.7253668763102725e-05,
      "loss": 0.5756,
      "num_input_tokens_seen": 68672,
      "step": 105
    },
    {
      "epoch": 0.057651991614255764,
      "grad_norm": 2.5791513919830322,
      "learning_rate": 2.8563941299790356e-05,
      "loss": 0.555,
      "num_input_tokens_seen": 71712,
      "step": 110
    },
    {
      "epoch": 0.06027253668763103,
      "grad_norm": 3.5946197509765625,
      "learning_rate": 2.987421383647799e-05,
      "loss": 0.8751,
      "num_input_tokens_seen": 74656,
      "step": 115
    },
    {
      "epoch": 0.06289308176100629,
      "grad_norm": 1.8013746738433838,
      "learning_rate": 3.118448637316562e-05,
      "loss": 0.589,
      "num_input_tokens_seen": 78208,
      "step": 120
    },
    {
      "epoch": 0.06551362683438156,
      "grad_norm": 2.0492613315582275,
      "learning_rate": 3.2494758909853245e-05,
      "loss": 0.5069,
      "num_input_tokens_seen": 81376,
      "step": 125
    },
    {
      "epoch": 0.06813417190775681,
      "grad_norm": 1.7878326177597046,
      "learning_rate": 3.380503144654088e-05,
      "loss": 0.5996,
      "num_input_tokens_seen": 84288,
      "step": 130
    },
    {
      "epoch": 0.07075471698113207,
      "grad_norm": 4.030372619628906,
      "learning_rate": 3.5115303983228514e-05,
      "loss": 0.6884,
      "num_input_tokens_seen": 86976,
      "step": 135
    },
    {
      "epoch": 0.07337526205450734,
      "grad_norm": 1.7215919494628906,
      "learning_rate": 3.642557651991614e-05,
      "loss": 0.592,
      "num_input_tokens_seen": 89952,
      "step": 140
    },
    {
      "epoch": 0.0759958071278826,
      "grad_norm": 1.3970232009887695,
      "learning_rate": 3.7735849056603776e-05,
      "loss": 0.5159,
      "num_input_tokens_seen": 93120,
      "step": 145
    },
    {
      "epoch": 0.07861635220125786,
      "grad_norm": 6.027312278747559,
      "learning_rate": 3.90461215932914e-05,
      "loss": 0.7196,
      "num_input_tokens_seen": 96640,
      "step": 150
    },
    {
      "epoch": 0.08123689727463312,
      "grad_norm": 2.3879823684692383,
      "learning_rate": 4.035639412997904e-05,
      "loss": 0.533,
      "num_input_tokens_seen": 99744,
      "step": 155
    },
    {
      "epoch": 0.08385744234800839,
      "grad_norm": 1.3439751863479614,
      "learning_rate": 4.1666666666666665e-05,
      "loss": 0.4917,
      "num_input_tokens_seen": 102720,
      "step": 160
    },
    {
      "epoch": 0.08647798742138364,
      "grad_norm": 2.2374861240386963,
      "learning_rate": 4.29769392033543e-05,
      "loss": 0.4938,
      "num_input_tokens_seen": 105344,
      "step": 165
    },
    {
      "epoch": 0.08909853249475891,
      "grad_norm": 8.11520004272461,
      "learning_rate": 4.4287211740041934e-05,
      "loss": 0.6687,
      "num_input_tokens_seen": 108576,
      "step": 170
    },
    {
      "epoch": 0.09171907756813417,
      "grad_norm": 2.886756420135498,
      "learning_rate": 4.5597484276729555e-05,
      "loss": 0.4821,
      "num_input_tokens_seen": 111520,
      "step": 175
    },
    {
      "epoch": 0.09433962264150944,
      "grad_norm": 1.1528733968734741,
      "learning_rate": 4.690775681341719e-05,
      "loss": 0.5532,
      "num_input_tokens_seen": 114400,
      "step": 180
    },
    {
      "epoch": 0.09696016771488469,
      "grad_norm": 1.9723998308181763,
      "learning_rate": 4.8218029350104823e-05,
      "loss": 0.5171,
      "num_input_tokens_seen": 118464,
      "step": 185
    },
    {
      "epoch": 0.09958071278825996,
      "grad_norm": 3.132680892944336,
      "learning_rate": 4.952830188679246e-05,
      "loss": 0.6925,
      "num_input_tokens_seen": 121376,
      "step": 190
    },
    {
      "epoch": 0.10220125786163523,
      "grad_norm": 3.2409818172454834,
      "learning_rate": 5.0838574423480085e-05,
      "loss": 0.7479,
      "num_input_tokens_seen": 124800,
      "step": 195
    },
    {
      "epoch": 0.10482180293501048,
      "grad_norm": 0.8265494108200073,
      "learning_rate": 5.214884696016771e-05,
      "loss": 0.4496,
      "num_input_tokens_seen": 127840,
      "step": 200
    },
    {
      "epoch": 0.10744234800838574,
      "grad_norm": 0.79975825548172,
      "learning_rate": 5.345911949685535e-05,
      "loss": 0.5328,
      "num_input_tokens_seen": 131296,
      "step": 205
    },
    {
      "epoch": 0.11006289308176101,
      "grad_norm": 2.4482340812683105,
      "learning_rate": 5.4769392033542975e-05,
      "loss": 0.6297,
      "num_input_tokens_seen": 133760,
      "step": 210
    },
    {
      "epoch": 0.11268343815513626,
      "grad_norm": 0.6541573405265808,
      "learning_rate": 5.607966457023061e-05,
      "loss": 0.6668,
      "num_input_tokens_seen": 137536,
      "step": 215
    },
    {
      "epoch": 0.11530398322851153,
      "grad_norm": 1.2417601346969604,
      "learning_rate": 5.7389937106918244e-05,
      "loss": 0.6212,
      "num_input_tokens_seen": 141568,
      "step": 220
    },
    {
      "epoch": 0.1179245283018868,
      "grad_norm": 0.6090500950813293,
      "learning_rate": 5.870020964360587e-05,
      "loss": 0.5354,
      "num_input_tokens_seen": 145248,
      "step": 225
    },
    {
      "epoch": 0.12054507337526206,
      "grad_norm": 0.687666654586792,
      "learning_rate": 6.00104821802935e-05,
      "loss": 0.5644,
      "num_input_tokens_seen": 148576,
      "step": 230
    },
    {
      "epoch": 0.12316561844863731,
      "grad_norm": 2.3429646492004395,
      "learning_rate": 6.132075471698113e-05,
      "loss": 0.5011,
      "num_input_tokens_seen": 151360,
      "step": 235
    },
    {
      "epoch": 0.12578616352201258,
      "grad_norm": 1.569071650505066,
      "learning_rate": 6.263102725366875e-05,
      "loss": 0.5308,
      "num_input_tokens_seen": 154144,
      "step": 240
    },
    {
      "epoch": 0.12840670859538783,
      "grad_norm": 1.231119990348816,
      "learning_rate": 6.39412997903564e-05,
      "loss": 0.583,
      "num_input_tokens_seen": 157600,
      "step": 245
    },
    {
      "epoch": 0.1310272536687631,
      "grad_norm": 1.0399724245071411,
      "learning_rate": 6.525157232704402e-05,
      "loss": 0.4666,
      "num_input_tokens_seen": 160832,
      "step": 250
    },
    {
      "epoch": 0.13364779874213836,
      "grad_norm": 6.524884223937988,
      "learning_rate": 6.656184486373166e-05,
      "loss": 0.6164,
      "num_input_tokens_seen": 163968,
      "step": 255
    },
    {
      "epoch": 0.13626834381551362,
      "grad_norm": 0.7295266389846802,
      "learning_rate": 6.787211740041929e-05,
      "loss": 0.6598,
      "num_input_tokens_seen": 168992,
      "step": 260
    },
    {
      "epoch": 0.1388888888888889,
      "grad_norm": 1.0831378698349,
      "learning_rate": 6.918238993710691e-05,
      "loss": 0.4441,
      "num_input_tokens_seen": 171616,
      "step": 265
    },
    {
      "epoch": 0.14150943396226415,
      "grad_norm": 1.5531197786331177,
      "learning_rate": 7.049266247379455e-05,
      "loss": 0.5464,
      "num_input_tokens_seen": 175680,
      "step": 270
    },
    {
      "epoch": 0.1441299790356394,
      "grad_norm": 1.2007243633270264,
      "learning_rate": 7.180293501048218e-05,
      "loss": 0.4831,
      "num_input_tokens_seen": 178880,
      "step": 275
    },
    {
      "epoch": 0.14675052410901468,
      "grad_norm": 0.9440937042236328,
      "learning_rate": 7.311320754716982e-05,
      "loss": 0.5758,
      "num_input_tokens_seen": 182368,
      "step": 280
    },
    {
      "epoch": 0.14937106918238993,
      "grad_norm": 0.8958629965782166,
      "learning_rate": 7.442348008385745e-05,
      "loss": 0.4891,
      "num_input_tokens_seen": 185792,
      "step": 285
    },
    {
      "epoch": 0.1519916142557652,
      "grad_norm": 1.1587005853652954,
      "learning_rate": 7.573375262054507e-05,
      "loss": 0.4635,
      "num_input_tokens_seen": 189664,
      "step": 290
    },
    {
      "epoch": 0.15461215932914046,
      "grad_norm": 0.9057841300964355,
      "learning_rate": 7.70440251572327e-05,
      "loss": 0.6271,
      "num_input_tokens_seen": 193632,
      "step": 295
    },
    {
      "epoch": 0.15723270440251572,
      "grad_norm": 0.8224643468856812,
      "learning_rate": 7.835429769392034e-05,
      "loss": 0.556,
      "num_input_tokens_seen": 196800,
      "step": 300
    },
    {
      "epoch": 0.159853249475891,
      "grad_norm": 2.0149567127227783,
      "learning_rate": 7.966457023060797e-05,
      "loss": 0.4587,
      "num_input_tokens_seen": 199744,
      "step": 305
    },
    {
      "epoch": 0.16247379454926625,
      "grad_norm": 0.9050501585006714,
      "learning_rate": 8.09748427672956e-05,
      "loss": 0.536,
      "num_input_tokens_seen": 202624,
      "step": 310
    },
    {
      "epoch": 0.1650943396226415,
      "grad_norm": 0.7234925031661987,
      "learning_rate": 8.228511530398323e-05,
      "loss": 0.6338,
      "num_input_tokens_seen": 205632,
      "step": 315
    },
    {
      "epoch": 0.16771488469601678,
      "grad_norm": 0.8674396276473999,
      "learning_rate": 8.359538784067086e-05,
      "loss": 0.5235,
      "num_input_tokens_seen": 209280,
      "step": 320
    },
    {
      "epoch": 0.17033542976939203,
      "grad_norm": 0.43796396255493164,
      "learning_rate": 8.490566037735848e-05,
      "loss": 0.4733,
      "num_input_tokens_seen": 213344,
      "step": 325
    },
    {
      "epoch": 0.17295597484276728,
      "grad_norm": 2.030254364013672,
      "learning_rate": 8.621593291404613e-05,
      "loss": 0.474,
      "num_input_tokens_seen": 216448,
      "step": 330
    },
    {
      "epoch": 0.17557651991614256,
      "grad_norm": 0.6598454117774963,
      "learning_rate": 8.752620545073375e-05,
      "loss": 0.5879,
      "num_input_tokens_seen": 218976,
      "step": 335
    },
    {
      "epoch": 0.17819706498951782,
      "grad_norm": 1.0424549579620361,
      "learning_rate": 8.883647798742137e-05,
      "loss": 0.4547,
      "num_input_tokens_seen": 222080,
      "step": 340
    },
    {
      "epoch": 0.18081761006289307,
      "grad_norm": 0.5856051445007324,
      "learning_rate": 9.014675052410902e-05,
      "loss": 0.6056,
      "num_input_tokens_seen": 225120,
      "step": 345
    },
    {
      "epoch": 0.18343815513626835,
      "grad_norm": 1.067273736000061,
      "learning_rate": 9.145702306079664e-05,
      "loss": 0.6401,
      "num_input_tokens_seen": 227872,
      "step": 350
    },
    {
      "epoch": 0.1860587002096436,
      "grad_norm": 0.6420345902442932,
      "learning_rate": 9.276729559748428e-05,
      "loss": 0.4689,
      "num_input_tokens_seen": 232320,
      "step": 355
    },
    {
      "epoch": 0.18867924528301888,
      "grad_norm": 1.6609517335891724,
      "learning_rate": 9.407756813417191e-05,
      "loss": 0.4419,
      "num_input_tokens_seen": 235104,
      "step": 360
    },
    {
      "epoch": 0.19129979035639413,
      "grad_norm": 0.9138534069061279,
      "learning_rate": 9.538784067085953e-05,
      "loss": 0.6211,
      "num_input_tokens_seen": 237792,
      "step": 365
    },
    {
      "epoch": 0.19392033542976939,
      "grad_norm": 0.8715429306030273,
      "learning_rate": 9.669811320754718e-05,
      "loss": 0.3824,
      "num_input_tokens_seen": 241728,
      "step": 370
    },
    {
      "epoch": 0.19654088050314467,
      "grad_norm": 1.1243870258331299,
      "learning_rate": 9.80083857442348e-05,
      "loss": 0.4463,
      "num_input_tokens_seen": 245696,
      "step": 375
    },
    {
      "epoch": 0.19916142557651992,
      "grad_norm": 0.337248831987381,
      "learning_rate": 9.931865828092243e-05,
      "loss": 0.4889,
      "num_input_tokens_seen": 249408,
      "step": 380
    },
    {
      "epoch": 0.20178197064989517,
      "grad_norm": 1.2045800685882568,
      "learning_rate": 0.00010062893081761007,
      "loss": 0.4816,
      "num_input_tokens_seen": 252160,
      "step": 385
    },
    {
      "epoch": 0.20440251572327045,
      "grad_norm": 0.8636941313743591,
      "learning_rate": 0.0001019392033542977,
      "loss": 0.7572,
      "num_input_tokens_seen": 255552,
      "step": 390
    },
    {
      "epoch": 0.2070230607966457,
      "grad_norm": 0.5646523237228394,
      "learning_rate": 0.00010324947589098532,
      "loss": 0.649,
      "num_input_tokens_seen": 259072,
      "step": 395
    },
    {
      "epoch": 0.20964360587002095,
      "grad_norm": 0.7022785544395447,
      "learning_rate": 0.00010455974842767296,
      "loss": 0.5231,
      "num_input_tokens_seen": 263008,
      "step": 400
    },
    {
      "epoch": 0.21226415094339623,
      "grad_norm": 0.642213761806488,
      "learning_rate": 0.00010587002096436059,
      "loss": 0.6032,
      "num_input_tokens_seen": 267424,
      "step": 405
    },
    {
      "epoch": 0.2148846960167715,
      "grad_norm": 0.42181310057640076,
      "learning_rate": 0.00010718029350104821,
      "loss": 0.6677,
      "num_input_tokens_seen": 270720,
      "step": 410
    },
    {
      "epoch": 0.21750524109014674,
      "grad_norm": 3.6813087463378906,
      "learning_rate": 0.00010849056603773586,
      "loss": 0.4969,
      "num_input_tokens_seen": 273568,
      "step": 415
    },
    {
      "epoch": 0.22012578616352202,
      "grad_norm": 0.7532957196235657,
      "learning_rate": 0.00010980083857442348,
      "loss": 0.6122,
      "num_input_tokens_seen": 276224,
      "step": 420
    },
    {
      "epoch": 0.22274633123689727,
      "grad_norm": 0.8820074796676636,
      "learning_rate": 0.0001111111111111111,
      "loss": 0.6452,
      "num_input_tokens_seen": 279040,
      "step": 425
    },
    {
      "epoch": 0.22536687631027252,
      "grad_norm": 0.5779814124107361,
      "learning_rate": 0.00011242138364779875,
      "loss": 0.6531,
      "num_input_tokens_seen": 282048,
      "step": 430
    },
    {
      "epoch": 0.2279874213836478,
      "grad_norm": 0.34812241792678833,
      "learning_rate": 0.00011373165618448637,
      "loss": 0.4409,
      "num_input_tokens_seen": 285184,
      "step": 435
    },
    {
      "epoch": 0.23060796645702306,
      "grad_norm": 0.6545121073722839,
      "learning_rate": 0.00011504192872117402,
      "loss": 0.5064,
      "num_input_tokens_seen": 289152,
      "step": 440
    },
    {
      "epoch": 0.23322851153039834,
      "grad_norm": 0.5190885663032532,
      "learning_rate": 0.00011635220125786164,
      "loss": 0.5777,
      "num_input_tokens_seen": 292768,
      "step": 445
    },
    {
      "epoch": 0.2358490566037736,
      "grad_norm": 2.07478928565979,
      "learning_rate": 0.00011766247379454926,
      "loss": 0.5325,
      "num_input_tokens_seen": 296128,
      "step": 450
    },
    {
      "epoch": 0.23846960167714884,
      "grad_norm": 0.6627933382987976,
      "learning_rate": 0.00011897274633123691,
      "loss": 0.5557,
      "num_input_tokens_seen": 300544,
      "step": 455
    },
    {
      "epoch": 0.24109014675052412,
      "grad_norm": 0.5532306432723999,
      "learning_rate": 0.00012028301886792453,
      "loss": 0.4792,
      "num_input_tokens_seen": 303200,
      "step": 460
    },
    {
      "epoch": 0.24371069182389937,
      "grad_norm": 0.34491807222366333,
      "learning_rate": 0.00012159329140461216,
      "loss": 0.5101,
      "num_input_tokens_seen": 306368,
      "step": 465
    },
    {
      "epoch": 0.24633123689727462,
      "grad_norm": 0.6148999929428101,
      "learning_rate": 0.0001229035639412998,
      "loss": 0.5877,
      "num_input_tokens_seen": 309952,
      "step": 470
    },
    {
      "epoch": 0.2489517819706499,
      "grad_norm": 0.5467433333396912,
      "learning_rate": 0.00012421383647798743,
      "loss": 0.4256,
      "num_input_tokens_seen": 312928,
      "step": 475
    },
    {
      "epoch": 0.25157232704402516,
      "grad_norm": 0.3775119483470917,
      "learning_rate": 0.00012552410901467507,
      "loss": 0.519,
      "num_input_tokens_seen": 316160,
      "step": 480
    },
    {
      "epoch": 0.25419287211740044,
      "grad_norm": 0.5994949340820312,
      "learning_rate": 0.00012683438155136267,
      "loss": 0.454,
      "num_input_tokens_seen": 319136,
      "step": 485
    },
    {
      "epoch": 0.25681341719077566,
      "grad_norm": 0.5842915177345276,
      "learning_rate": 0.0001281446540880503,
      "loss": 0.5483,
      "num_input_tokens_seen": 321824,
      "step": 490
    },
    {
      "epoch": 0.25943396226415094,
      "grad_norm": 1.1014503240585327,
      "learning_rate": 0.00012945492662473794,
      "loss": 0.8427,
      "num_input_tokens_seen": 324864,
      "step": 495
    },
    {
      "epoch": 0.2620545073375262,
      "grad_norm": 1.1458312273025513,
      "learning_rate": 0.00013076519916142558,
      "loss": 0.6483,
      "num_input_tokens_seen": 327264,
      "step": 500
    },
    {
      "epoch": 0.26467505241090145,
      "grad_norm": 0.3179609477519989,
      "learning_rate": 0.0001320754716981132,
      "loss": 0.6585,
      "num_input_tokens_seen": 330656,
      "step": 505
    },
    {
      "epoch": 0.2672955974842767,
      "grad_norm": 0.39777636528015137,
      "learning_rate": 0.00013338574423480085,
      "loss": 0.5116,
      "num_input_tokens_seen": 335776,
      "step": 510
    },
    {
      "epoch": 0.269916142557652,
      "grad_norm": 0.5848403573036194,
      "learning_rate": 0.00013469601677148845,
      "loss": 0.6111,
      "num_input_tokens_seen": 339392,
      "step": 515
    },
    {
      "epoch": 0.27253668763102723,
      "grad_norm": 0.40363579988479614,
      "learning_rate": 0.0001360062893081761,
      "loss": 0.6659,
      "num_input_tokens_seen": 342848,
      "step": 520
    },
    {
      "epoch": 0.2751572327044025,
      "grad_norm": 0.3835638761520386,
      "learning_rate": 0.00013731656184486375,
      "loss": 0.6105,
      "num_input_tokens_seen": 345600,
      "step": 525
    },
    {
      "epoch": 0.2777777777777778,
      "grad_norm": 0.3594791293144226,
      "learning_rate": 0.00013862683438155136,
      "loss": 0.5965,
      "num_input_tokens_seen": 348960,
      "step": 530
    },
    {
      "epoch": 0.280398322851153,
      "grad_norm": 0.5300905108451843,
      "learning_rate": 0.000139937106918239,
      "loss": 0.4781,
      "num_input_tokens_seen": 351520,
      "step": 535
    },
    {
      "epoch": 0.2830188679245283,
      "grad_norm": 1.0723967552185059,
      "learning_rate": 0.00014124737945492663,
      "loss": 0.7421,
      "num_input_tokens_seen": 355456,
      "step": 540
    },
    {
      "epoch": 0.2856394129979036,
      "grad_norm": 0.3835248649120331,
      "learning_rate": 0.00014255765199161423,
      "loss": 0.607,
      "num_input_tokens_seen": 358144,
      "step": 545
    },
    {
      "epoch": 0.2882599580712788,
      "grad_norm": 0.4392087757587433,
      "learning_rate": 0.0001438679245283019,
      "loss": 0.4785,
      "num_input_tokens_seen": 363104,
      "step": 550
    },
    {
      "epoch": 0.2908805031446541,
      "grad_norm": 0.83857262134552,
      "learning_rate": 0.00014517819706498953,
      "loss": 0.5133,
      "num_input_tokens_seen": 367200,
      "step": 555
    },
    {
      "epoch": 0.29350104821802936,
      "grad_norm": 0.3060242831707001,
      "learning_rate": 0.00014648846960167716,
      "loss": 0.6664,
      "num_input_tokens_seen": 370176,
      "step": 560
    },
    {
      "epoch": 0.29612159329140464,
      "grad_norm": 0.9388130903244019,
      "learning_rate": 0.00014779874213836477,
      "loss": 0.6956,
      "num_input_tokens_seen": 372832,
      "step": 565
    },
    {
      "epoch": 0.29874213836477986,
      "grad_norm": 0.3048021197319031,
      "learning_rate": 0.00014910901467505243,
      "loss": 0.5604,
      "num_input_tokens_seen": 375296,
      "step": 570
    },
    {
      "epoch": 0.30136268343815514,
      "grad_norm": 0.49973657727241516,
      "learning_rate": 0.00015041928721174007,
      "loss": 0.516,
      "num_input_tokens_seen": 378464,
      "step": 575
    },
    {
      "epoch": 0.3039832285115304,
      "grad_norm": 0.6597527861595154,
      "learning_rate": 0.00015172955974842767,
      "loss": 0.4598,
      "num_input_tokens_seen": 381664,
      "step": 580
    },
    {
      "epoch": 0.30660377358490565,
      "grad_norm": 1.450443983078003,
      "learning_rate": 0.0001530398322851153,
      "loss": 0.5851,
      "num_input_tokens_seen": 385248,
      "step": 585
    },
    {
      "epoch": 0.30922431865828093,
      "grad_norm": 0.42437681555747986,
      "learning_rate": 0.00015435010482180294,
      "loss": 0.4983,
      "num_input_tokens_seen": 387840,
      "step": 590
    },
    {
      "epoch": 0.3118448637316562,
      "grad_norm": 0.48261669278144836,
      "learning_rate": 0.00015566037735849058,
      "loss": 0.4202,
      "num_input_tokens_seen": 391424,
      "step": 595
    },
    {
      "epoch": 0.31446540880503143,
      "grad_norm": 0.7652385830879211,
      "learning_rate": 0.0001569706498951782,
      "loss": 0.5072,
      "num_input_tokens_seen": 394656,
      "step": 600
    },
    {
      "epoch": 0.3170859538784067,
      "grad_norm": 0.3747149407863617,
      "learning_rate": 0.00015828092243186584,
      "loss": 0.536,
      "num_input_tokens_seen": 397824,
      "step": 605
    },
    {
      "epoch": 0.319706498951782,
      "grad_norm": 0.37605127692222595,
      "learning_rate": 0.00015959119496855345,
      "loss": 0.5827,
      "num_input_tokens_seen": 400544,
      "step": 610
    },
    {
      "epoch": 0.3223270440251572,
      "grad_norm": 1.1842573881149292,
      "learning_rate": 0.00016090146750524109,
      "loss": 0.5469,
      "num_input_tokens_seen": 403552,
      "step": 615
    },
    {
      "epoch": 0.3249475890985325,
      "grad_norm": 1.0117100477218628,
      "learning_rate": 0.00016221174004192875,
      "loss": 0.7845,
      "num_input_tokens_seen": 406464,
      "step": 620
    },
    {
      "epoch": 0.3275681341719078,
      "grad_norm": 0.9302913546562195,
      "learning_rate": 0.00016352201257861635,
      "loss": 0.386,
      "num_input_tokens_seen": 412032,
      "step": 625
    },
    {
      "epoch": 0.330188679245283,
      "grad_norm": 0.40631967782974243,
      "learning_rate": 0.000164832285115304,
      "loss": 0.4761,
      "num_input_tokens_seen": 415104,
      "step": 630
    },
    {
      "epoch": 0.3328092243186583,
      "grad_norm": 0.846383273601532,
      "learning_rate": 0.00016614255765199162,
      "loss": 0.5731,
      "num_input_tokens_seen": 418368,
      "step": 635
    },
    {
      "epoch": 0.33542976939203356,
      "grad_norm": 0.8282208442687988,
      "learning_rate": 0.00016745283018867923,
      "loss": 0.5614,
      "num_input_tokens_seen": 420928,
      "step": 640
    },
    {
      "epoch": 0.3380503144654088,
      "grad_norm": 0.4226648807525635,
      "learning_rate": 0.0001687631027253669,
      "loss": 0.4234,
      "num_input_tokens_seen": 423840,
      "step": 645
    },
    {
      "epoch": 0.34067085953878407,
      "grad_norm": 0.2976963222026825,
      "learning_rate": 0.00017007337526205453,
      "loss": 0.5115,
      "num_input_tokens_seen": 427904,
      "step": 650
    },
    {
      "epoch": 0.34329140461215935,
      "grad_norm": 0.3674778640270233,
      "learning_rate": 0.00017138364779874213,
      "loss": 0.724,
      "num_input_tokens_seen": 430304,
      "step": 655
    },
    {
      "epoch": 0.34591194968553457,
      "grad_norm": 0.80470871925354,
      "learning_rate": 0.00017269392033542977,
      "loss": 0.6477,
      "num_input_tokens_seen": 433088,
      "step": 660
    },
    {
      "epoch": 0.34853249475890985,
      "grad_norm": 0.324932336807251,
      "learning_rate": 0.0001740041928721174,
      "loss": 0.5293,
      "num_input_tokens_seen": 437120,
      "step": 665
    },
    {
      "epoch": 0.35115303983228513,
      "grad_norm": 0.3352031707763672,
      "learning_rate": 0.00017531446540880504,
      "loss": 0.3572,
      "num_input_tokens_seen": 441440,
      "step": 670
    },
    {
      "epoch": 0.35377358490566035,
      "grad_norm": 0.5992921590805054,
      "learning_rate": 0.00017662473794549267,
      "loss": 0.487,
      "num_input_tokens_seen": 444000,
      "step": 675
    },
    {
      "epoch": 0.35639412997903563,
      "grad_norm": 0.30000829696655273,
      "learning_rate": 0.0001779350104821803,
      "loss": 0.4702,
      "num_input_tokens_seen": 447232,
      "step": 680
    },
    {
      "epoch": 0.3590146750524109,
      "grad_norm": 0.3772430419921875,
      "learning_rate": 0.0001792452830188679,
      "loss": 0.4652,
      "num_input_tokens_seen": 450432,
      "step": 685
    },
    {
      "epoch": 0.36163522012578614,
      "grad_norm": 0.31574591994285583,
      "learning_rate": 0.00018055555555555555,
      "loss": 0.4587,
      "num_input_tokens_seen": 453440,
      "step": 690
    },
    {
      "epoch": 0.3642557651991614,
      "grad_norm": 0.4096910357475281,
      "learning_rate": 0.0001818658280922432,
      "loss": 0.4585,
      "num_input_tokens_seen": 456352,
      "step": 695
    },
    {
      "epoch": 0.3668763102725367,
      "grad_norm": 0.3676670789718628,
      "learning_rate": 0.00018317610062893082,
      "loss": 0.524,
      "num_input_tokens_seen": 459712,
      "step": 700
    },
    {
      "epoch": 0.3694968553459119,
      "grad_norm": 0.17578832805156708,
      "learning_rate": 0.00018448637316561845,
      "loss": 0.4642,
      "num_input_tokens_seen": 463168,
      "step": 705
    },
    {
      "epoch": 0.3721174004192872,
      "grad_norm": 0.4964885115623474,
      "learning_rate": 0.00018579664570230608,
      "loss": 0.5323,
      "num_input_tokens_seen": 465824,
      "step": 710
    },
    {
      "epoch": 0.3747379454926625,
      "grad_norm": 0.705554187297821,
      "learning_rate": 0.0001871069182389937,
      "loss": 0.5807,
      "num_input_tokens_seen": 468032,
      "step": 715
    },
    {
      "epoch": 0.37735849056603776,
      "grad_norm": 0.24155448377132416,
      "learning_rate": 0.00018841719077568135,
      "loss": 0.439,
      "num_input_tokens_seen": 471392,
      "step": 720
    },
    {
      "epoch": 0.379979035639413,
      "grad_norm": 0.48569533228874207,
      "learning_rate": 0.000189727463312369,
      "loss": 0.5144,
      "num_input_tokens_seen": 474400,
      "step": 725
    },
    {
      "epoch": 0.38259958071278827,
      "grad_norm": 0.4337495267391205,
      "learning_rate": 0.00019103773584905662,
      "loss": 0.4208,
      "num_input_tokens_seen": 477792,
      "step": 730
    },
    {
      "epoch": 0.38522012578616355,
      "grad_norm": 0.5106285214424133,
      "learning_rate": 0.00019234800838574423,
      "loss": 0.5426,
      "num_input_tokens_seen": 481216,
      "step": 735
    },
    {
      "epoch": 0.38784067085953877,
      "grad_norm": 0.25012972950935364,
      "learning_rate": 0.00019365828092243186,
      "loss": 0.5051,
      "num_input_tokens_seen": 484928,
      "step": 740
    },
    {
      "epoch": 0.39046121593291405,
      "grad_norm": 0.5086995363235474,
      "learning_rate": 0.00019496855345911953,
      "loss": 0.5552,
      "num_input_tokens_seen": 488224,
      "step": 745
    },
    {
      "epoch": 0.39308176100628933,
      "grad_norm": 0.4242267310619354,
      "learning_rate": 0.00019627882599580713,
      "loss": 0.6399,
      "num_input_tokens_seen": 491840,
      "step": 750
    },
    {
      "epoch": 0.39570230607966456,
      "grad_norm": 1.0973111391067505,
      "learning_rate": 0.00019758909853249477,
      "loss": 0.623,
      "num_input_tokens_seen": 495232,
      "step": 755
    },
    {
      "epoch": 0.39832285115303984,
      "grad_norm": 0.2493249922990799,
      "learning_rate": 0.0001988993710691824,
      "loss": 0.4612,
      "num_input_tokens_seen": 498336,
      "step": 760
    },
    {
      "epoch": 0.4009433962264151,
      "grad_norm": 0.3835686147212982,
      "learning_rate": 0.00020020964360587,
      "loss": 0.6123,
      "num_input_tokens_seen": 500448,
      "step": 765
    },
    {
      "epoch": 0.40356394129979034,
      "grad_norm": 0.2858453094959259,
      "learning_rate": 0.00020151991614255767,
      "loss": 0.4895,
      "num_input_tokens_seen": 503520,
      "step": 770
    },
    {
      "epoch": 0.4061844863731656,
      "grad_norm": 0.7970603108406067,
      "learning_rate": 0.0002028301886792453,
      "loss": 0.5691,
      "num_input_tokens_seen": 506208,
      "step": 775
    },
    {
      "epoch": 0.4088050314465409,
      "grad_norm": 0.3833969235420227,
      "learning_rate": 0.0002041404612159329,
      "loss": 0.53,
      "num_input_tokens_seen": 509152,
      "step": 780
    },
    {
      "epoch": 0.4114255765199161,
      "grad_norm": 0.2978332042694092,
      "learning_rate": 0.00020545073375262055,
      "loss": 0.5057,
      "num_input_tokens_seen": 513184,
      "step": 785
    },
    {
      "epoch": 0.4140461215932914,
      "grad_norm": 0.6415271759033203,
      "learning_rate": 0.00020676100628930818,
      "loss": 0.6125,
      "num_input_tokens_seen": 516128,
      "step": 790
    },
    {
      "epoch": 0.4166666666666667,
      "grad_norm": 0.3191700577735901,
      "learning_rate": 0.00020807127882599581,
      "loss": 0.5325,
      "num_input_tokens_seen": 519264,
      "step": 795
    },
    {
      "epoch": 0.4192872117400419,
      "grad_norm": 0.4558803141117096,
      "learning_rate": 0.00020938155136268345,
      "loss": 0.5351,
      "num_input_tokens_seen": 522304,
      "step": 800
    },
    {
      "epoch": 0.4219077568134172,
      "grad_norm": 0.5243375301361084,
      "learning_rate": 0.00021069182389937108,
      "loss": 0.4799,
      "num_input_tokens_seen": 525600,
      "step": 805
    },
    {
      "epoch": 0.42452830188679247,
      "grad_norm": 0.37576010823249817,
      "learning_rate": 0.0002120020964360587,
      "loss": 0.5947,
      "num_input_tokens_seen": 528608,
      "step": 810
    },
    {
      "epoch": 0.4271488469601677,
      "grad_norm": 0.18789039552211761,
      "learning_rate": 0.00021331236897274632,
      "loss": 0.5083,
      "num_input_tokens_seen": 531232,
      "step": 815
    },
    {
      "epoch": 0.429769392033543,
      "grad_norm": 0.3507634103298187,
      "learning_rate": 0.00021462264150943399,
      "loss": 0.4385,
      "num_input_tokens_seen": 534208,
      "step": 820
    },
    {
      "epoch": 0.43238993710691825,
      "grad_norm": 0.57802414894104,
      "learning_rate": 0.0002159329140461216,
      "loss": 0.5331,
      "num_input_tokens_seen": 537792,
      "step": 825
    },
    {
      "epoch": 0.4350104821802935,
      "grad_norm": 0.3528115451335907,
      "learning_rate": 0.00021724318658280923,
      "loss": 0.6352,
      "num_input_tokens_seen": 540448,
      "step": 830
    },
    {
      "epoch": 0.43763102725366876,
      "grad_norm": 0.2551056146621704,
      "learning_rate": 0.00021855345911949686,
      "loss": 0.4555,
      "num_input_tokens_seen": 543072,
      "step": 835
    },
    {
      "epoch": 0.44025157232704404,
      "grad_norm": 0.273890882730484,
      "learning_rate": 0.00021986373165618447,
      "loss": 0.4675,
      "num_input_tokens_seen": 547456,
      "step": 840
    },
    {
      "epoch": 0.44287211740041926,
      "grad_norm": 0.17959338426589966,
      "learning_rate": 0.00022117400419287213,
      "loss": 0.5982,
      "num_input_tokens_seen": 551968,
      "step": 845
    },
    {
      "epoch": 0.44549266247379454,
      "grad_norm": 0.4268709719181061,
      "learning_rate": 0.00022248427672955977,
      "loss": 0.5104,
      "num_input_tokens_seen": 554400,
      "step": 850
    },
    {
      "epoch": 0.4481132075471698,
      "grad_norm": 0.35535290837287903,
      "learning_rate": 0.00022379454926624737,
      "loss": 0.4659,
      "num_input_tokens_seen": 557184,
      "step": 855
    },
    {
      "epoch": 0.45073375262054505,
      "grad_norm": 0.22169078886508942,
      "learning_rate": 0.000225104821802935,
      "loss": 0.4017,
      "num_input_tokens_seen": 559840,
      "step": 860
    },
    {
      "epoch": 0.4533542976939203,
      "grad_norm": 0.27277079224586487,
      "learning_rate": 0.00022641509433962264,
      "loss": 0.4348,
      "num_input_tokens_seen": 562624,
      "step": 865
    },
    {
      "epoch": 0.4559748427672956,
      "grad_norm": 0.32412996888160706,
      "learning_rate": 0.00022772536687631028,
      "loss": 0.3931,
      "num_input_tokens_seen": 565888,
      "step": 870
    },
    {
      "epoch": 0.4585953878406709,
      "grad_norm": 0.5127803683280945,
      "learning_rate": 0.0002290356394129979,
      "loss": 0.4149,
      "num_input_tokens_seen": 569088,
      "step": 875
    },
    {
      "epoch": 0.4612159329140461,
      "grad_norm": 0.26538076996803284,
      "learning_rate": 0.00023034591194968554,
      "loss": 0.4845,
      "num_input_tokens_seen": 571904,
      "step": 880
    },
    {
      "epoch": 0.4638364779874214,
      "grad_norm": 0.37863484025001526,
      "learning_rate": 0.00023165618448637318,
      "loss": 0.4867,
      "num_input_tokens_seen": 575232,
      "step": 885
    },
    {
      "epoch": 0.46645702306079667,
      "grad_norm": 0.6728324294090271,
      "learning_rate": 0.00023296645702306079,
      "loss": 0.6116,
      "num_input_tokens_seen": 578432,
      "step": 890
    },
    {
      "epoch": 0.4690775681341719,
      "grad_norm": 0.3867671489715576,
      "learning_rate": 0.00023427672955974845,
      "loss": 0.5069,
      "num_input_tokens_seen": 582112,
      "step": 895
    },
    {
      "epoch": 0.4716981132075472,
      "grad_norm": 0.4141317307949066,
      "learning_rate": 0.00023558700209643608,
      "loss": 0.7512,
      "num_input_tokens_seen": 584608,
      "step": 900
    },
    {
      "epoch": 0.47431865828092246,
      "grad_norm": 0.3946058750152588,
      "learning_rate": 0.0002368972746331237,
      "loss": 0.4571,
      "num_input_tokens_seen": 587808,
      "step": 905
    },
    {
      "epoch": 0.4769392033542977,
      "grad_norm": 0.2067146599292755,
      "learning_rate": 0.00023820754716981132,
      "loss": 0.4687,
      "num_input_tokens_seen": 590848,
      "step": 910
    },
    {
      "epoch": 0.47955974842767296,
      "grad_norm": 0.21233589947223663,
      "learning_rate": 0.00023951781970649896,
      "loss": 0.6243,
      "num_input_tokens_seen": 595232,
      "step": 915
    },
    {
      "epoch": 0.48218029350104824,
      "grad_norm": 0.22609083354473114,
      "learning_rate": 0.0002408280922431866,
      "loss": 0.4127,
      "num_input_tokens_seen": 598560,
      "step": 920
    },
    {
      "epoch": 0.48480083857442346,
      "grad_norm": 0.34200775623321533,
      "learning_rate": 0.00024213836477987423,
      "loss": 0.5035,
      "num_input_tokens_seen": 606336,
      "step": 925
    },
    {
      "epoch": 0.48742138364779874,
      "grad_norm": 0.23888851702213287,
      "learning_rate": 0.00024344863731656186,
      "loss": 0.5778,
      "num_input_tokens_seen": 609728,
      "step": 930
    },
    {
      "epoch": 0.490041928721174,
      "grad_norm": 0.3107621967792511,
      "learning_rate": 0.00024475890985324947,
      "loss": 0.4747,
      "num_input_tokens_seen": 612256,
      "step": 935
    },
    {
      "epoch": 0.49266247379454925,
      "grad_norm": 0.31103599071502686,
      "learning_rate": 0.0002460691823899371,
      "loss": 0.5467,
      "num_input_tokens_seen": 615520,
      "step": 940
    },
    {
      "epoch": 0.49528301886792453,
      "grad_norm": 0.26525983214378357,
      "learning_rate": 0.00024737945492662474,
      "loss": 0.5337,
      "num_input_tokens_seen": 618880,
      "step": 945
    },
    {
      "epoch": 0.4979035639412998,
      "grad_norm": 0.24790677428245544,
      "learning_rate": 0.00024868972746331237,
      "loss": 0.5725,
      "num_input_tokens_seen": 621664,
      "step": 950
    },
    {
      "epoch": 0.500524109014675,
      "grad_norm": 0.2934848964214325,
      "learning_rate": 0.00025,
      "loss": 0.6493,
      "num_input_tokens_seen": 624736,
      "step": 955
    },
    {
      "epoch": 0.5031446540880503,
      "grad_norm": 0.5661503672599792,
      "learning_rate": 0.00025131027253668764,
      "loss": 0.5654,
      "num_input_tokens_seen": 628576,
      "step": 960
    },
    {
      "epoch": 0.5057651991614256,
      "grad_norm": 0.3119319975376129,
      "learning_rate": 0.0002526205450733753,
      "loss": 0.4927,
      "num_input_tokens_seen": 632288,
      "step": 965
    },
    {
      "epoch": 0.5083857442348009,
      "grad_norm": 0.2899607717990875,
      "learning_rate": 0.0002539308176100629,
      "loss": 0.5102,
      "num_input_tokens_seen": 635008,
      "step": 970
    },
    {
      "epoch": 0.5110062893081762,
      "grad_norm": 0.1850305199623108,
      "learning_rate": 0.0002552410901467505,
      "loss": 0.4193,
      "num_input_tokens_seen": 638720,
      "step": 975
    },
    {
      "epoch": 0.5136268343815513,
      "grad_norm": 0.3789837062358856,
      "learning_rate": 0.0002565513626834381,
      "loss": 0.4769,
      "num_input_tokens_seen": 641344,
      "step": 980
    },
    {
      "epoch": 0.5162473794549266,
      "grad_norm": 0.3807128965854645,
      "learning_rate": 0.0002578616352201258,
      "loss": 0.4839,
      "num_input_tokens_seen": 645600,
      "step": 985
    },
    {
      "epoch": 0.5188679245283019,
      "grad_norm": 0.17258095741271973,
      "learning_rate": 0.00025917190775681345,
      "loss": 0.647,
      "num_input_tokens_seen": 648672,
      "step": 990
    },
    {
      "epoch": 0.5214884696016772,
      "grad_norm": 1.615047812461853,
      "learning_rate": 0.0002604821802935011,
      "loss": 0.6083,
      "num_input_tokens_seen": 652416,
      "step": 995
    },
    {
      "epoch": 0.5241090146750524,
      "grad_norm": 0.23076441884040833,
      "learning_rate": 0.0002617924528301887,
      "loss": 0.6018,
      "num_input_tokens_seen": 655712,
      "step": 1000
    },
    {
      "epoch": 0.5267295597484277,
      "grad_norm": 0.4366607367992401,
      "learning_rate": 0.0002631027253668763,
      "loss": 0.47,
      "num_input_tokens_seen": 657760,
      "step": 1005
    },
    {
      "epoch": 0.5293501048218029,
      "grad_norm": 0.3037017583847046,
      "learning_rate": 0.00026441299790356393,
      "loss": 0.6608,
      "num_input_tokens_seen": 660640,
      "step": 1010
    },
    {
      "epoch": 0.5319706498951782,
      "grad_norm": 0.4265425205230713,
      "learning_rate": 0.00026572327044025156,
      "loss": 0.5731,
      "num_input_tokens_seen": 666496,
      "step": 1015
    },
    {
      "epoch": 0.5345911949685535,
      "grad_norm": 0.29704219102859497,
      "learning_rate": 0.0002670335429769392,
      "loss": 0.5708,
      "num_input_tokens_seen": 669088,
      "step": 1020
    },
    {
      "epoch": 0.5372117400419287,
      "grad_norm": 0.22623547911643982,
      "learning_rate": 0.00026834381551362683,
      "loss": 0.5422,
      "num_input_tokens_seen": 672192,
      "step": 1025
    },
    {
      "epoch": 0.539832285115304,
      "grad_norm": 0.3346956968307495,
      "learning_rate": 0.0002696540880503145,
      "loss": 0.5284,
      "num_input_tokens_seen": 675104,
      "step": 1030
    },
    {
      "epoch": 0.5424528301886793,
      "grad_norm": 0.15964382886886597,
      "learning_rate": 0.0002709643605870021,
      "loss": 0.4552,
      "num_input_tokens_seen": 678368,
      "step": 1035
    },
    {
      "epoch": 0.5450733752620545,
      "grad_norm": 0.21676874160766602,
      "learning_rate": 0.00027227463312368973,
      "loss": 0.5224,
      "num_input_tokens_seen": 681600,
      "step": 1040
    },
    {
      "epoch": 0.5476939203354297,
      "grad_norm": 0.24834312498569489,
      "learning_rate": 0.00027358490566037737,
      "loss": 0.5234,
      "num_input_tokens_seen": 684576,
      "step": 1045
    },
    {
      "epoch": 0.550314465408805,
      "grad_norm": 0.3851728141307831,
      "learning_rate": 0.000274895178197065,
      "loss": 0.5393,
      "num_input_tokens_seen": 688832,
      "step": 1050
    },
    {
      "epoch": 0.5529350104821803,
      "grad_norm": 0.9445276856422424,
      "learning_rate": 0.00027620545073375264,
      "loss": 0.5951,
      "num_input_tokens_seen": 691520,
      "step": 1055
    },
    {
      "epoch": 0.5555555555555556,
      "grad_norm": 0.2573949992656708,
      "learning_rate": 0.00027751572327044027,
      "loss": 0.4784,
      "num_input_tokens_seen": 694336,
      "step": 1060
    },
    {
      "epoch": 0.5581761006289309,
      "grad_norm": 0.1788748800754547,
      "learning_rate": 0.00027882599580712785,
      "loss": 0.4068,
      "num_input_tokens_seen": 698016,
      "step": 1065
    },
    {
      "epoch": 0.560796645702306,
      "grad_norm": 0.2760603725910187,
      "learning_rate": 0.0002801362683438155,
      "loss": 0.46,
      "num_input_tokens_seen": 700896,
      "step": 1070
    },
    {
      "epoch": 0.5634171907756813,
      "grad_norm": 0.23837237060070038,
      "learning_rate": 0.0002814465408805031,
      "loss": 0.4101,
      "num_input_tokens_seen": 704416,
      "step": 1075
    },
    {
      "epoch": 0.5660377358490566,
      "grad_norm": 0.4126613736152649,
      "learning_rate": 0.0002827568134171908,
      "loss": 0.6638,
      "num_input_tokens_seen": 707648,
      "step": 1080
    },
    {
      "epoch": 0.5686582809224319,
      "grad_norm": 0.29422804713249207,
      "learning_rate": 0.00028406708595387844,
      "loss": 0.6244,
      "num_input_tokens_seen": 711200,
      "step": 1085
    },
    {
      "epoch": 0.5712788259958071,
      "grad_norm": 0.17151619493961334,
      "learning_rate": 0.0002853773584905661,
      "loss": 0.5058,
      "num_input_tokens_seen": 715200,
      "step": 1090
    },
    {
      "epoch": 0.5738993710691824,
      "grad_norm": 0.2752530574798584,
      "learning_rate": 0.00028668763102725366,
      "loss": 0.4324,
      "num_input_tokens_seen": 718080,
      "step": 1095
    },
    {
      "epoch": 0.5765199161425576,
      "grad_norm": 0.19790934026241302,
      "learning_rate": 0.0002879979035639413,
      "loss": 0.564,
      "num_input_tokens_seen": 722112,
      "step": 1100
    },
    {
      "epoch": 0.5791404612159329,
      "grad_norm": 0.1096164807677269,
      "learning_rate": 0.00028930817610062893,
      "loss": 0.5532,
      "num_input_tokens_seen": 725696,
      "step": 1105
    },
    {
      "epoch": 0.5817610062893082,
      "grad_norm": 0.2971174120903015,
      "learning_rate": 0.00029061844863731656,
      "loss": 0.5652,
      "num_input_tokens_seen": 729824,
      "step": 1110
    },
    {
      "epoch": 0.5843815513626834,
      "grad_norm": 0.2140747606754303,
      "learning_rate": 0.0002919287211740042,
      "loss": 0.5027,
      "num_input_tokens_seen": 734528,
      "step": 1115
    },
    {
      "epoch": 0.5870020964360587,
      "grad_norm": 0.2143489122390747,
      "learning_rate": 0.00029323899371069183,
      "loss": 0.4226,
      "num_input_tokens_seen": 737568,
      "step": 1120
    },
    {
      "epoch": 0.589622641509434,
      "grad_norm": 0.19494827091693878,
      "learning_rate": 0.00029454926624737946,
      "loss": 0.5486,
      "num_input_tokens_seen": 740256,
      "step": 1125
    },
    {
      "epoch": 0.5922431865828093,
      "grad_norm": 0.22116999328136444,
      "learning_rate": 0.0002958595387840671,
      "loss": 0.4852,
      "num_input_tokens_seen": 743968,
      "step": 1130
    },
    {
      "epoch": 0.5948637316561844,
      "grad_norm": 0.3097437024116516,
      "learning_rate": 0.00029716981132075473,
      "loss": 0.5853,
      "num_input_tokens_seen": 746528,
      "step": 1135
    },
    {
      "epoch": 0.5974842767295597,
      "grad_norm": 0.22077476978302002,
      "learning_rate": 0.00029848008385744237,
      "loss": 0.5841,
      "num_input_tokens_seen": 749632,
      "step": 1140
    },
    {
      "epoch": 0.600104821802935,
      "grad_norm": 0.3044518530368805,
      "learning_rate": 0.00029979035639413,
      "loss": 0.526,
      "num_input_tokens_seen": 752832,
      "step": 1145
    },
    {
      "epoch": 0.6027253668763103,
      "grad_norm": 0.187425434589386,
      "learning_rate": 0.00030110062893081764,
      "loss": 0.5208,
      "num_input_tokens_seen": 756032,
      "step": 1150
    },
    {
      "epoch": 0.6053459119496856,
      "grad_norm": 0.2986365854740143,
      "learning_rate": 0.00030241090146750527,
      "loss": 0.437,
      "num_input_tokens_seen": 759488,
      "step": 1155
    },
    {
      "epoch": 0.6079664570230608,
      "grad_norm": 0.3511606752872467,
      "learning_rate": 0.00030372117400419285,
      "loss": 0.4405,
      "num_input_tokens_seen": 762304,
      "step": 1160
    },
    {
      "epoch": 0.610587002096436,
      "grad_norm": 0.1417909413576126,
      "learning_rate": 0.0003050314465408805,
      "loss": 0.3881,
      "num_input_tokens_seen": 765152,
      "step": 1165
    },
    {
      "epoch": 0.6132075471698113,
      "grad_norm": 0.3454786241054535,
      "learning_rate": 0.0003063417190775681,
      "loss": 0.5278,
      "num_input_tokens_seen": 768608,
      "step": 1170
    },
    {
      "epoch": 0.6158280922431866,
      "grad_norm": 0.2813011407852173,
      "learning_rate": 0.00030765199161425575,
      "loss": 0.4852,
      "num_input_tokens_seen": 771328,
      "step": 1175
    },
    {
      "epoch": 0.6184486373165619,
      "grad_norm": 0.23812434077262878,
      "learning_rate": 0.00030896226415094344,
      "loss": 0.6214,
      "num_input_tokens_seen": 774464,
      "step": 1180
    },
    {
      "epoch": 0.6210691823899371,
      "grad_norm": 0.3088383972644806,
      "learning_rate": 0.0003102725366876311,
      "loss": 0.5262,
      "num_input_tokens_seen": 777824,
      "step": 1185
    },
    {
      "epoch": 0.6236897274633124,
      "grad_norm": 0.12511205673217773,
      "learning_rate": 0.00031158280922431866,
      "loss": 0.4322,
      "num_input_tokens_seen": 782464,
      "step": 1190
    },
    {
      "epoch": 0.6263102725366876,
      "grad_norm": 0.6832587718963623,
      "learning_rate": 0.0003128930817610063,
      "loss": 0.5188,
      "num_input_tokens_seen": 785632,
      "step": 1195
    },
    {
      "epoch": 0.6289308176100629,
      "grad_norm": 0.14958511292934418,
      "learning_rate": 0.0003142033542976939,
      "loss": 0.5024,
      "num_input_tokens_seen": 789344,
      "step": 1200
    },
    {
      "epoch": 0.6315513626834381,
      "grad_norm": 0.19999535381793976,
      "learning_rate": 0.00031551362683438156,
      "loss": 0.5835,
      "num_input_tokens_seen": 792928,
      "step": 1205
    },
    {
      "epoch": 0.6341719077568134,
      "grad_norm": 0.41095077991485596,
      "learning_rate": 0.0003168238993710692,
      "loss": 0.5883,
      "num_input_tokens_seen": 796032,
      "step": 1210
    },
    {
      "epoch": 0.6367924528301887,
      "grad_norm": 0.16134630143642426,
      "learning_rate": 0.00031813417190775683,
      "loss": 0.4841,
      "num_input_tokens_seen": 798464,
      "step": 1215
    },
    {
      "epoch": 0.639412997903564,
      "grad_norm": 0.21885833144187927,
      "learning_rate": 0.0003194444444444444,
      "loss": 0.6749,
      "num_input_tokens_seen": 801088,
      "step": 1220
    },
    {
      "epoch": 0.6420335429769392,
      "grad_norm": 0.31852859258651733,
      "learning_rate": 0.00032075471698113204,
      "loss": 0.6057,
      "num_input_tokens_seen": 803872,
      "step": 1225
    },
    {
      "epoch": 0.6446540880503144,
      "grad_norm": 0.34105682373046875,
      "learning_rate": 0.00032206498951781973,
      "loss": 0.4357,
      "num_input_tokens_seen": 806784,
      "step": 1230
    },
    {
      "epoch": 0.6472746331236897,
      "grad_norm": 0.3069341778755188,
      "learning_rate": 0.00032337526205450737,
      "loss": 0.4087,
      "num_input_tokens_seen": 810656,
      "step": 1235
    },
    {
      "epoch": 0.649895178197065,
      "grad_norm": 0.22340326011180878,
      "learning_rate": 0.000324685534591195,
      "loss": 0.4302,
      "num_input_tokens_seen": 813568,
      "step": 1240
    },
    {
      "epoch": 0.6525157232704403,
      "grad_norm": 0.23801115155220032,
      "learning_rate": 0.00032599580712788263,
      "loss": 0.7078,
      "num_input_tokens_seen": 816800,
      "step": 1245
    },
    {
      "epoch": 0.6551362683438156,
      "grad_norm": 0.17300152778625488,
      "learning_rate": 0.0003273060796645702,
      "loss": 0.6867,
      "num_input_tokens_seen": 820512,
      "step": 1250
    },
    {
      "epoch": 0.6577568134171907,
      "grad_norm": 0.24674633145332336,
      "learning_rate": 0.00032861635220125785,
      "loss": 0.4925,
      "num_input_tokens_seen": 824096,
      "step": 1255
    },
    {
      "epoch": 0.660377358490566,
      "grad_norm": 0.16121934354305267,
      "learning_rate": 0.0003299266247379455,
      "loss": 0.5529,
      "num_input_tokens_seen": 827744,
      "step": 1260
    },
    {
      "epoch": 0.6629979035639413,
      "grad_norm": 0.30366793274879456,
      "learning_rate": 0.0003312368972746331,
      "loss": 0.5538,
      "num_input_tokens_seen": 830944,
      "step": 1265
    },
    {
      "epoch": 0.6656184486373166,
      "grad_norm": 0.16098462045192719,
      "learning_rate": 0.00033254716981132075,
      "loss": 0.4555,
      "num_input_tokens_seen": 834176,
      "step": 1270
    },
    {
      "epoch": 0.6682389937106918,
      "grad_norm": 0.2890755236148834,
      "learning_rate": 0.0003338574423480084,
      "loss": 0.6114,
      "num_input_tokens_seen": 837664,
      "step": 1275
    },
    {
      "epoch": 0.6708595387840671,
      "grad_norm": 0.30327677726745605,
      "learning_rate": 0.0003351677148846961,
      "loss": 0.5038,
      "num_input_tokens_seen": 840864,
      "step": 1280
    },
    {
      "epoch": 0.6734800838574424,
      "grad_norm": 0.13400043547153473,
      "learning_rate": 0.00033647798742138366,
      "loss": 0.5629,
      "num_input_tokens_seen": 844576,
      "step": 1285
    },
    {
      "epoch": 0.6761006289308176,
      "grad_norm": 0.20281930267810822,
      "learning_rate": 0.0003377882599580713,
      "loss": 0.5646,
      "num_input_tokens_seen": 847328,
      "step": 1290
    },
    {
      "epoch": 0.6787211740041929,
      "grad_norm": 0.330846905708313,
      "learning_rate": 0.0003390985324947589,
      "loss": 0.5826,
      "num_input_tokens_seen": 850048,
      "step": 1295
    },
    {
      "epoch": 0.6813417190775681,
      "grad_norm": 0.16130933165550232,
      "learning_rate": 0.00034040880503144656,
      "loss": 0.5963,
      "num_input_tokens_seen": 853568,
      "step": 1300
    },
    {
      "epoch": 0.6839622641509434,
      "grad_norm": 0.2927013337612152,
      "learning_rate": 0.0003417190775681342,
      "loss": 0.4189,
      "num_input_tokens_seen": 857024,
      "step": 1305
    },
    {
      "epoch": 0.6865828092243187,
      "grad_norm": 0.11218996345996857,
      "learning_rate": 0.00034302935010482183,
      "loss": 0.5697,
      "num_input_tokens_seen": 861568,
      "step": 1310
    },
    {
      "epoch": 0.689203354297694,
      "grad_norm": 0.2991780638694763,
      "learning_rate": 0.0003443396226415094,
      "loss": 0.5719,
      "num_input_tokens_seen": 864384,
      "step": 1315
    },
    {
      "epoch": 0.6918238993710691,
      "grad_norm": 0.14222799241542816,
      "learning_rate": 0.00034564989517819704,
      "loss": 0.4595,
      "num_input_tokens_seen": 867136,
      "step": 1320
    },
    {
      "epoch": 0.6944444444444444,
      "grad_norm": 0.5097079873085022,
      "learning_rate": 0.0003469601677148847,
      "loss": 0.5561,
      "num_input_tokens_seen": 870080,
      "step": 1325
    },
    {
      "epoch": 0.6970649895178197,
      "grad_norm": 0.3624551296234131,
      "learning_rate": 0.00034827044025157236,
      "loss": 0.6483,
      "num_input_tokens_seen": 873568,
      "step": 1330
    },
    {
      "epoch": 0.699685534591195,
      "grad_norm": 0.16439804434776306,
      "learning_rate": 0.00034958071278826,
      "loss": 0.6374,
      "num_input_tokens_seen": 876192,
      "step": 1335
    },
    {
      "epoch": 0.7023060796645703,
      "grad_norm": 0.3188578188419342,
      "learning_rate": 0.00035089098532494763,
      "loss": 0.5072,
      "num_input_tokens_seen": 878784,
      "step": 1340
    },
    {
      "epoch": 0.7049266247379455,
      "grad_norm": 0.21837791800498962,
      "learning_rate": 0.0003522012578616352,
      "loss": 0.6679,
      "num_input_tokens_seen": 882304,
      "step": 1345
    },
    {
      "epoch": 0.7075471698113207,
      "grad_norm": 0.1607198566198349,
      "learning_rate": 0.00035351153039832285,
      "loss": 0.4562,
      "num_input_tokens_seen": 885792,
      "step": 1350
    },
    {
      "epoch": 0.710167714884696,
      "grad_norm": 0.2781851887702942,
      "learning_rate": 0.0003548218029350105,
      "loss": 0.491,
      "num_input_tokens_seen": 887840,
      "step": 1355
    },
    {
      "epoch": 0.7127882599580713,
      "grad_norm": 0.2400294989347458,
      "learning_rate": 0.0003561320754716981,
      "loss": 0.5989,
      "num_input_tokens_seen": 890848,
      "step": 1360
    },
    {
      "epoch": 0.7154088050314465,
      "grad_norm": 0.2354937344789505,
      "learning_rate": 0.00035744234800838575,
      "loss": 0.5905,
      "num_input_tokens_seen": 894304,
      "step": 1365
    },
    {
      "epoch": 0.7180293501048218,
      "grad_norm": 0.20539569854736328,
      "learning_rate": 0.0003587526205450734,
      "loss": 0.6481,
      "num_input_tokens_seen": 897600,
      "step": 1370
    },
    {
      "epoch": 0.7206498951781971,
      "grad_norm": 0.4273098409175873,
      "learning_rate": 0.00036006289308176097,
      "loss": 0.484,
      "num_input_tokens_seen": 900928,
      "step": 1375
    },
    {
      "epoch": 0.7232704402515723,
      "grad_norm": 0.18387866020202637,
      "learning_rate": 0.00036137316561844865,
      "loss": 0.486,
      "num_input_tokens_seen": 903872,
      "step": 1380
    },
    {
      "epoch": 0.7258909853249476,
      "grad_norm": 0.16076414287090302,
      "learning_rate": 0.0003626834381551363,
      "loss": 0.3821,
      "num_input_tokens_seen": 907456,
      "step": 1385
    },
    {
      "epoch": 0.7285115303983228,
      "grad_norm": 0.11786618828773499,
      "learning_rate": 0.0003639937106918239,
      "loss": 0.4527,
      "num_input_tokens_seen": 911072,
      "step": 1390
    },
    {
      "epoch": 0.7311320754716981,
      "grad_norm": 0.2747716009616852,
      "learning_rate": 0.00036530398322851156,
      "loss": 0.5784,
      "num_input_tokens_seen": 914112,
      "step": 1395
    },
    {
      "epoch": 0.7337526205450734,
      "grad_norm": 0.7366140484809875,
      "learning_rate": 0.0003666142557651992,
      "loss": 0.4891,
      "num_input_tokens_seen": 917280,
      "step": 1400
    },
    {
      "epoch": 0.7363731656184487,
      "grad_norm": 0.37042078375816345,
      "learning_rate": 0.00036792452830188677,
      "loss": 0.4626,
      "num_input_tokens_seen": 919936,
      "step": 1405
    },
    {
      "epoch": 0.7389937106918238,
      "grad_norm": 0.31904277205467224,
      "learning_rate": 0.0003692348008385744,
      "loss": 0.5992,
      "num_input_tokens_seen": 922144,
      "step": 1410
    },
    {
      "epoch": 0.7416142557651991,
      "grad_norm": 0.25535860657691956,
      "learning_rate": 0.00037054507337526204,
      "loss": 0.6142,
      "num_input_tokens_seen": 925184,
      "step": 1415
    },
    {
      "epoch": 0.7442348008385744,
      "grad_norm": 0.24088186025619507,
      "learning_rate": 0.0003718553459119497,
      "loss": 0.6023,
      "num_input_tokens_seen": 928096,
      "step": 1420
    },
    {
      "epoch": 0.7468553459119497,
      "grad_norm": 0.19462135434150696,
      "learning_rate": 0.0003731656184486373,
      "loss": 0.526,
      "num_input_tokens_seen": 930976,
      "step": 1425
    },
    {
      "epoch": 0.749475890985325,
      "grad_norm": 0.31019219756126404,
      "learning_rate": 0.000374475890985325,
      "loss": 0.4776,
      "num_input_tokens_seen": 934336,
      "step": 1430
    },
    {
      "epoch": 0.7520964360587002,
      "grad_norm": 0.23910562694072723,
      "learning_rate": 0.00037578616352201263,
      "loss": 0.4759,
      "num_input_tokens_seen": 936544,
      "step": 1435
    },
    {
      "epoch": 0.7547169811320755,
      "grad_norm": 0.14062629640102386,
      "learning_rate": 0.0003770964360587002,
      "loss": 0.4449,
      "num_input_tokens_seen": 940160,
      "step": 1440
    },
    {
      "epoch": 0.7573375262054507,
      "grad_norm": 0.24788214266300201,
      "learning_rate": 0.00037840670859538785,
      "loss": 0.5949,
      "num_input_tokens_seen": 942592,
      "step": 1445
    },
    {
      "epoch": 0.759958071278826,
      "grad_norm": 0.10126440972089767,
      "learning_rate": 0.0003797169811320755,
      "loss": 0.4454,
      "num_input_tokens_seen": 945856,
      "step": 1450
    },
    {
      "epoch": 0.7625786163522013,
      "grad_norm": 0.4118219017982483,
      "learning_rate": 0.0003810272536687631,
      "loss": 0.4093,
      "num_input_tokens_seen": 948288,
      "step": 1455
    },
    {
      "epoch": 0.7651991614255765,
      "grad_norm": 0.20238691568374634,
      "learning_rate": 0.00038233752620545075,
      "loss": 0.5884,
      "num_input_tokens_seen": 950720,
      "step": 1460
    },
    {
      "epoch": 0.7678197064989518,
      "grad_norm": 0.16539007425308228,
      "learning_rate": 0.0003836477987421384,
      "loss": 0.4252,
      "num_input_tokens_seen": 953760,
      "step": 1465
    },
    {
      "epoch": 0.7704402515723271,
      "grad_norm": 0.23449954390525818,
      "learning_rate": 0.00038495807127882596,
      "loss": 0.6125,
      "num_input_tokens_seen": 956864,
      "step": 1470
    },
    {
      "epoch": 0.7730607966457023,
      "grad_norm": 0.11055535078048706,
      "learning_rate": 0.0003862683438155136,
      "loss": 0.3816,
      "num_input_tokens_seen": 959584,
      "step": 1475
    },
    {
      "epoch": 0.7756813417190775,
      "grad_norm": 0.10122857987880707,
      "learning_rate": 0.0003875786163522013,
      "loss": 0.3882,
      "num_input_tokens_seen": 962720,
      "step": 1480
    },
    {
      "epoch": 0.7783018867924528,
      "grad_norm": 0.1816778928041458,
      "learning_rate": 0.0003888888888888889,
      "loss": 0.4993,
      "num_input_tokens_seen": 965568,
      "step": 1485
    },
    {
      "epoch": 0.7809224318658281,
      "grad_norm": 0.17335307598114014,
      "learning_rate": 0.00039019916142557656,
      "loss": 0.4999,
      "num_input_tokens_seen": 969088,
      "step": 1490
    },
    {
      "epoch": 0.7835429769392034,
      "grad_norm": 0.17569252848625183,
      "learning_rate": 0.0003915094339622642,
      "loss": 0.4464,
      "num_input_tokens_seen": 972960,
      "step": 1495
    },
    {
      "epoch": 0.7861635220125787,
      "grad_norm": 0.1565210074186325,
      "learning_rate": 0.00039281970649895177,
      "loss": 0.5412,
      "num_input_tokens_seen": 976256,
      "step": 1500
    },
    {
      "epoch": 0.7887840670859538,
      "grad_norm": 0.20741327106952667,
      "learning_rate": 0.0003941299790356394,
      "loss": 0.434,
      "num_input_tokens_seen": 979584,
      "step": 1505
    },
    {
      "epoch": 0.7914046121593291,
      "grad_norm": 0.6087960600852966,
      "learning_rate": 0.00039544025157232704,
      "loss": 0.5507,
      "num_input_tokens_seen": 982208,
      "step": 1510
    },
    {
      "epoch": 0.7940251572327044,
      "grad_norm": 0.30001693964004517,
      "learning_rate": 0.0003967505241090147,
      "loss": 0.4966,
      "num_input_tokens_seen": 986624,
      "step": 1515
    },
    {
      "epoch": 0.7966457023060797,
      "grad_norm": 0.11314213275909424,
      "learning_rate": 0.0003980607966457023,
      "loss": 0.572,
      "num_input_tokens_seen": 989856,
      "step": 1520
    },
    {
      "epoch": 0.799266247379455,
      "grad_norm": 0.160932719707489,
      "learning_rate": 0.00039937106918238994,
      "loss": 0.5769,
      "num_input_tokens_seen": 992384,
      "step": 1525
    },
    {
      "epoch": 0.8018867924528302,
      "grad_norm": 0.10502399504184723,
      "learning_rate": 0.0004006813417190776,
      "loss": 0.4799,
      "num_input_tokens_seen": 996096,
      "step": 1530
    },
    {
      "epoch": 0.8045073375262054,
      "grad_norm": 0.4283279776573181,
      "learning_rate": 0.0004019916142557652,
      "loss": 0.5142,
      "num_input_tokens_seen": 998880,
      "step": 1535
    },
    {
      "epoch": 0.8071278825995807,
      "grad_norm": 0.20545145869255066,
      "learning_rate": 0.00040330188679245284,
      "loss": 0.5158,
      "num_input_tokens_seen": 1002336,
      "step": 1540
    },
    {
      "epoch": 0.809748427672956,
      "grad_norm": 0.2246280312538147,
      "learning_rate": 0.0004046121593291405,
      "loss": 0.4688,
      "num_input_tokens_seen": 1005888,
      "step": 1545
    },
    {
      "epoch": 0.8123689727463312,
      "grad_norm": 0.14341889321804047,
      "learning_rate": 0.0004059224318658281,
      "loss": 0.3839,
      "num_input_tokens_seen": 1010496,
      "step": 1550
    },
    {
      "epoch": 0.8149895178197065,
      "grad_norm": 0.17430327832698822,
      "learning_rate": 0.00040723270440251575,
      "loss": 0.5802,
      "num_input_tokens_seen": 1014848,
      "step": 1555
    },
    {
      "epoch": 0.8176100628930818,
      "grad_norm": 0.17275238037109375,
      "learning_rate": 0.00040854297693920333,
      "loss": 0.5134,
      "num_input_tokens_seen": 1018176,
      "step": 1560
    },
    {
      "epoch": 0.820230607966457,
      "grad_norm": 0.2676526606082916,
      "learning_rate": 0.00040985324947589096,
      "loss": 0.4781,
      "num_input_tokens_seen": 1021056,
      "step": 1565
    },
    {
      "epoch": 0.8228511530398323,
      "grad_norm": 0.30284181237220764,
      "learning_rate": 0.0004111635220125786,
      "loss": 0.5577,
      "num_input_tokens_seen": 1024096,
      "step": 1570
    },
    {
      "epoch": 0.8254716981132075,
      "grad_norm": 0.24895474314689636,
      "learning_rate": 0.00041247379454926623,
      "loss": 0.6197,
      "num_input_tokens_seen": 1027072,
      "step": 1575
    },
    {
      "epoch": 0.8280922431865828,
      "grad_norm": 0.3380386233329773,
      "learning_rate": 0.0004137840670859539,
      "loss": 0.4613,
      "num_input_tokens_seen": 1029536,
      "step": 1580
    },
    {
      "epoch": 0.8307127882599581,
      "grad_norm": 0.1751764416694641,
      "learning_rate": 0.00041509433962264155,
      "loss": 0.4247,
      "num_input_tokens_seen": 1032320,
      "step": 1585
    },
    {
      "epoch": 0.8333333333333334,
      "grad_norm": 0.12012425810098648,
      "learning_rate": 0.00041640461215932913,
      "loss": 0.6555,
      "num_input_tokens_seen": 1035168,
      "step": 1590
    },
    {
      "epoch": 0.8359538784067087,
      "grad_norm": 0.177323579788208,
      "learning_rate": 0.00041771488469601677,
      "loss": 0.4949,
      "num_input_tokens_seen": 1038720,
      "step": 1595
    },
    {
      "epoch": 0.8385744234800838,
      "grad_norm": 0.2992091774940491,
      "learning_rate": 0.0004190251572327044,
      "loss": 0.4796,
      "num_input_tokens_seen": 1041344,
      "step": 1600
    },
    {
      "epoch": 0.8411949685534591,
      "grad_norm": 0.3587007522583008,
      "learning_rate": 0.00042033542976939204,
      "loss": 0.8159,
      "num_input_tokens_seen": 1043808,
      "step": 1605
    },
    {
      "epoch": 0.8438155136268344,
      "grad_norm": 0.14509940147399902,
      "learning_rate": 0.00042164570230607967,
      "loss": 0.4963,
      "num_input_tokens_seen": 1046752,
      "step": 1610
    },
    {
      "epoch": 0.8464360587002097,
      "grad_norm": 0.14368730783462524,
      "learning_rate": 0.0004229559748427673,
      "loss": 0.5451,
      "num_input_tokens_seen": 1049664,
      "step": 1615
    },
    {
      "epoch": 0.8490566037735849,
      "grad_norm": 0.13443909585475922,
      "learning_rate": 0.00042426624737945494,
      "loss": 0.4295,
      "num_input_tokens_seen": 1052128,
      "step": 1620
    },
    {
      "epoch": 0.8516771488469602,
      "grad_norm": 0.22284501791000366,
      "learning_rate": 0.0004255765199161425,
      "loss": 0.5158,
      "num_input_tokens_seen": 1055008,
      "step": 1625
    },
    {
      "epoch": 0.8542976939203354,
      "grad_norm": 0.10059472173452377,
      "learning_rate": 0.0004268867924528302,
      "loss": 0.6351,
      "num_input_tokens_seen": 1058368,
      "step": 1630
    },
    {
      "epoch": 0.8569182389937107,
      "grad_norm": 0.16067969799041748,
      "learning_rate": 0.00042819706498951784,
      "loss": 0.4411,
      "num_input_tokens_seen": 1061888,
      "step": 1635
    },
    {
      "epoch": 0.859538784067086,
      "grad_norm": 0.23490475118160248,
      "learning_rate": 0.0004295073375262055,
      "loss": 0.4415,
      "num_input_tokens_seen": 1065344,
      "step": 1640
    },
    {
      "epoch": 0.8621593291404612,
      "grad_norm": 0.32518303394317627,
      "learning_rate": 0.0004308176100628931,
      "loss": 0.4254,
      "num_input_tokens_seen": 1068288,
      "step": 1645
    },
    {
      "epoch": 0.8647798742138365,
      "grad_norm": 0.09373153001070023,
      "learning_rate": 0.00043212788259958075,
      "loss": 0.3991,
      "num_input_tokens_seen": 1072512,
      "step": 1650
    },
    {
      "epoch": 0.8674004192872118,
      "grad_norm": 0.12806494534015656,
      "learning_rate": 0.0004334381551362683,
      "loss": 0.4569,
      "num_input_tokens_seen": 1077280,
      "step": 1655
    },
    {
      "epoch": 0.870020964360587,
      "grad_norm": 0.24325361847877502,
      "learning_rate": 0.00043474842767295596,
      "loss": 0.5275,
      "num_input_tokens_seen": 1081632,
      "step": 1660
    },
    {
      "epoch": 0.8726415094339622,
      "grad_norm": 0.2660205662250519,
      "learning_rate": 0.0004360587002096436,
      "loss": 0.3486,
      "num_input_tokens_seen": 1084768,
      "step": 1665
    },
    {
      "epoch": 0.8752620545073375,
      "grad_norm": 0.1518935263156891,
      "learning_rate": 0.00043736897274633123,
      "loss": 0.5467,
      "num_input_tokens_seen": 1088864,
      "step": 1670
    },
    {
      "epoch": 0.8778825995807128,
      "grad_norm": 0.12724632024765015,
      "learning_rate": 0.00043867924528301886,
      "loss": 0.3836,
      "num_input_tokens_seen": 1091840,
      "step": 1675
    },
    {
      "epoch": 0.8805031446540881,
      "grad_norm": 0.2068994641304016,
      "learning_rate": 0.00043998951781970655,
      "loss": 0.4136,
      "num_input_tokens_seen": 1095136,
      "step": 1680
    },
    {
      "epoch": 0.8831236897274634,
      "grad_norm": 0.18674421310424805,
      "learning_rate": 0.00044129979035639413,
      "loss": 0.5601,
      "num_input_tokens_seen": 1098848,
      "step": 1685
    },
    {
      "epoch": 0.8857442348008385,
      "grad_norm": 0.11830959469079971,
      "learning_rate": 0.00044261006289308177,
      "loss": 0.5196,
      "num_input_tokens_seen": 1101920,
      "step": 1690
    },
    {
      "epoch": 0.8883647798742138,
      "grad_norm": 0.2527647018432617,
      "learning_rate": 0.0004439203354297694,
      "loss": 0.4759,
      "num_input_tokens_seen": 1105152,
      "step": 1695
    },
    {
      "epoch": 0.8909853249475891,
      "grad_norm": 0.12873722612857819,
      "learning_rate": 0.00044523060796645704,
      "loss": 0.4568,
      "num_input_tokens_seen": 1111328,
      "step": 1700
    },
    {
      "epoch": 0.8936058700209644,
      "grad_norm": 0.30451759696006775,
      "learning_rate": 0.00044654088050314467,
      "loss": 0.4677,
      "num_input_tokens_seen": 1114240,
      "step": 1705
    },
    {
      "epoch": 0.8962264150943396,
      "grad_norm": 0.392761766910553,
      "learning_rate": 0.0004478511530398323,
      "loss": 0.4472,
      "num_input_tokens_seen": 1118912,
      "step": 1710
    },
    {
      "epoch": 0.8988469601677149,
      "grad_norm": 0.20165908336639404,
      "learning_rate": 0.0004491614255765199,
      "loss": 0.695,
      "num_input_tokens_seen": 1122368,
      "step": 1715
    },
    {
      "epoch": 0.9014675052410901,
      "grad_norm": 0.13267336785793304,
      "learning_rate": 0.0004504716981132075,
      "loss": 0.4049,
      "num_input_tokens_seen": 1125184,
      "step": 1720
    },
    {
      "epoch": 0.9040880503144654,
      "grad_norm": 0.6718254685401917,
      "learning_rate": 0.00045178197064989515,
      "loss": 0.5714,
      "num_input_tokens_seen": 1128992,
      "step": 1725
    },
    {
      "epoch": 0.9067085953878407,
      "grad_norm": 0.15196192264556885,
      "learning_rate": 0.00045309224318658284,
      "loss": 0.5974,
      "num_input_tokens_seen": 1131872,
      "step": 1730
    },
    {
      "epoch": 0.9093291404612159,
      "grad_norm": 0.13837526738643646,
      "learning_rate": 0.0004544025157232705,
      "loss": 0.5174,
      "num_input_tokens_seen": 1135904,
      "step": 1735
    },
    {
      "epoch": 0.9119496855345912,
      "grad_norm": 0.4317764341831207,
      "learning_rate": 0.0004557127882599581,
      "loss": 0.4927,
      "num_input_tokens_seen": 1139520,
      "step": 1740
    },
    {
      "epoch": 0.9145702306079665,
      "grad_norm": 0.21108801662921906,
      "learning_rate": 0.0004570230607966457,
      "loss": 0.5018,
      "num_input_tokens_seen": 1142304,
      "step": 1745
    },
    {
      "epoch": 0.9171907756813418,
      "grad_norm": 0.3293724060058594,
      "learning_rate": 0.0004583333333333333,
      "loss": 0.4451,
      "num_input_tokens_seen": 1145280,
      "step": 1750
    },
    {
      "epoch": 0.9198113207547169,
      "grad_norm": 0.17553167045116425,
      "learning_rate": 0.00045964360587002096,
      "loss": 0.5212,
      "num_input_tokens_seen": 1147904,
      "step": 1755
    },
    {
      "epoch": 0.9224318658280922,
      "grad_norm": 0.28727987408638,
      "learning_rate": 0.0004609538784067086,
      "loss": 0.5536,
      "num_input_tokens_seen": 1151200,
      "step": 1760
    },
    {
      "epoch": 0.9250524109014675,
      "grad_norm": 0.13062915205955505,
      "learning_rate": 0.00046226415094339623,
      "loss": 0.5782,
      "num_input_tokens_seen": 1154528,
      "step": 1765
    },
    {
      "epoch": 0.9276729559748428,
      "grad_norm": 0.09288801997900009,
      "learning_rate": 0.00046357442348008386,
      "loss": 0.478,
      "num_input_tokens_seen": 1157632,
      "step": 1770
    },
    {
      "epoch": 0.9302935010482181,
      "grad_norm": 0.1684902012348175,
      "learning_rate": 0.00046488469601677155,
      "loss": 0.4225,
      "num_input_tokens_seen": 1161280,
      "step": 1775
    },
    {
      "epoch": 0.9329140461215933,
      "grad_norm": 0.200904980301857,
      "learning_rate": 0.00046619496855345913,
      "loss": 0.4993,
      "num_input_tokens_seen": 1164512,
      "step": 1780
    },
    {
      "epoch": 0.9355345911949685,
      "grad_norm": 0.20535576343536377,
      "learning_rate": 0.00046750524109014677,
      "loss": 0.4758,
      "num_input_tokens_seen": 1167808,
      "step": 1785
    },
    {
      "epoch": 0.9381551362683438,
      "grad_norm": 0.1697302609682083,
      "learning_rate": 0.0004688155136268344,
      "loss": 0.4743,
      "num_input_tokens_seen": 1170432,
      "step": 1790
    },
    {
      "epoch": 0.9407756813417191,
      "grad_norm": 0.16370746493339539,
      "learning_rate": 0.00047012578616352203,
      "loss": 0.3863,
      "num_input_tokens_seen": 1173088,
      "step": 1795
    },
    {
      "epoch": 0.9433962264150944,
      "grad_norm": 0.13944672048091888,
      "learning_rate": 0.00047143605870020967,
      "loss": 0.4145,
      "num_input_tokens_seen": 1176448,
      "step": 1800
    },
    {
      "epoch": 0.9460167714884696,
      "grad_norm": 0.22045159339904785,
      "learning_rate": 0.0004727463312368973,
      "loss": 0.5265,
      "num_input_tokens_seen": 1179296,
      "step": 1805
    },
    {
      "epoch": 0.9486373165618449,
      "grad_norm": 0.10440287739038467,
      "learning_rate": 0.0004740566037735849,
      "loss": 0.592,
      "num_input_tokens_seen": 1186976,
      "step": 1810
    },
    {
      "epoch": 0.9512578616352201,
      "grad_norm": 0.22253291308879852,
      "learning_rate": 0.0004753668763102725,
      "loss": 0.5665,
      "num_input_tokens_seen": 1189248,
      "step": 1815
    },
    {
      "epoch": 0.9538784067085954,
      "grad_norm": 0.160034641623497,
      "learning_rate": 0.00047667714884696015,
      "loss": 0.6234,
      "num_input_tokens_seen": 1191840,
      "step": 1820
    },
    {
      "epoch": 0.9564989517819706,
      "grad_norm": 0.17440594732761383,
      "learning_rate": 0.00047798742138364784,
      "loss": 0.5445,
      "num_input_tokens_seen": 1194720,
      "step": 1825
    },
    {
      "epoch": 0.9591194968553459,
      "grad_norm": 0.1744956225156784,
      "learning_rate": 0.0004792976939203355,
      "loss": 0.5139,
      "num_input_tokens_seen": 1198592,
      "step": 1830
    },
    {
      "epoch": 0.9617400419287212,
      "grad_norm": 0.1891934722661972,
      "learning_rate": 0.0004806079664570231,
      "loss": 0.5443,
      "num_input_tokens_seen": 1201216,
      "step": 1835
    },
    {
      "epoch": 0.9643605870020965,
      "grad_norm": 0.19539253413677216,
      "learning_rate": 0.0004819182389937107,
      "loss": 0.5263,
      "num_input_tokens_seen": 1204096,
      "step": 1840
    },
    {
      "epoch": 0.9669811320754716,
      "grad_norm": 0.13165777921676636,
      "learning_rate": 0.0004832285115303983,
      "loss": 0.3597,
      "num_input_tokens_seen": 1206784,
      "step": 1845
    },
    {
      "epoch": 0.9696016771488469,
      "grad_norm": 0.2730075716972351,
      "learning_rate": 0.00048453878406708596,
      "loss": 0.4701,
      "num_input_tokens_seen": 1209632,
      "step": 1850
    },
    {
      "epoch": 0.9722222222222222,
      "grad_norm": 0.11876796185970306,
      "learning_rate": 0.0004858490566037736,
      "loss": 0.4605,
      "num_input_tokens_seen": 1212512,
      "step": 1855
    },
    {
      "epoch": 0.9748427672955975,
      "grad_norm": 0.1383439600467682,
      "learning_rate": 0.0004871593291404612,
      "loss": 0.5194,
      "num_input_tokens_seen": 1216096,
      "step": 1860
    },
    {
      "epoch": 0.9774633123689728,
      "grad_norm": 0.1203632727265358,
      "learning_rate": 0.0004884696016771489,
      "loss": 0.5101,
      "num_input_tokens_seen": 1219264,
      "step": 1865
    },
    {
      "epoch": 0.980083857442348,
      "grad_norm": 0.21387843787670135,
      "learning_rate": 0.0004897798742138365,
      "loss": 0.4235,
      "num_input_tokens_seen": 1222080,
      "step": 1870
    },
    {
      "epoch": 0.9827044025157232,
      "grad_norm": 0.18304362893104553,
      "learning_rate": 0.0004910901467505241,
      "loss": 0.4785,
      "num_input_tokens_seen": 1224288,
      "step": 1875
    },
    {
      "epoch": 0.9853249475890985,
      "grad_norm": 0.13036185503005981,
      "learning_rate": 0.0004924004192872118,
      "loss": 0.5364,
      "num_input_tokens_seen": 1227168,
      "step": 1880
    },
    {
      "epoch": 0.9879454926624738,
      "grad_norm": 0.1458035260438919,
      "learning_rate": 0.0004937106918238993,
      "loss": 0.3793,
      "num_input_tokens_seen": 1230656,
      "step": 1885
    },
    {
      "epoch": 0.9905660377358491,
      "grad_norm": 0.1844981163740158,
      "learning_rate": 0.000495020964360587,
      "loss": 0.4937,
      "num_input_tokens_seen": 1233312,
      "step": 1890
    },
    {
      "epoch": 0.9931865828092243,
      "grad_norm": 0.5017203688621521,
      "learning_rate": 0.0004963312368972746,
      "loss": 0.5117,
      "num_input_tokens_seen": 1239040,
      "step": 1895
    },
    {
      "epoch": 0.9958071278825996,
      "grad_norm": 0.08819898962974548,
      "learning_rate": 0.0004976415094339623,
      "loss": 0.5421,
      "num_input_tokens_seen": 1242720,
      "step": 1900
    },
    {
      "epoch": 0.9984276729559748,
      "grad_norm": 0.19918864965438843,
      "learning_rate": 0.0004989517819706499,
      "loss": 0.5233,
      "num_input_tokens_seen": 1245664,
      "step": 1905
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.4729139804840088,
      "eval_runtime": 13.3034,
      "eval_samples_per_second": 63.743,
      "eval_steps_per_second": 15.936,
      "num_input_tokens_seen": 1246832,
      "step": 1908
    },
    {
      "epoch": 1.00104821802935,
      "grad_norm": 0.2353423535823822,
      "learning_rate": 0.0005002620545073376,
      "loss": 0.948,
      "num_input_tokens_seen": 1248016,
      "step": 1910
    },
    {
      "epoch": 1.0036687631027255,
      "grad_norm": 0.19288216531276703,
      "learning_rate": 0.0005015723270440253,
      "loss": 0.3785,
      "num_input_tokens_seen": 1251600,
      "step": 1915
    },
    {
      "epoch": 1.0062893081761006,
      "grad_norm": 0.16098518669605255,
      "learning_rate": 0.0005028825995807128,
      "loss": 0.6221,
      "num_input_tokens_seen": 1254640,
      "step": 1920
    },
    {
      "epoch": 1.0089098532494758,
      "grad_norm": 0.07495877146720886,
      "learning_rate": 0.0005041928721174004,
      "loss": 0.4127,
      "num_input_tokens_seen": 1258576,
      "step": 1925
    },
    {
      "epoch": 1.0115303983228512,
      "grad_norm": 0.17397022247314453,
      "learning_rate": 0.0005055031446540881,
      "loss": 0.4846,
      "num_input_tokens_seen": 1261488,
      "step": 1930
    },
    {
      "epoch": 1.0141509433962264,
      "grad_norm": 0.2061353474855423,
      "learning_rate": 0.0005068134171907757,
      "loss": 0.4972,
      "num_input_tokens_seen": 1264688,
      "step": 1935
    },
    {
      "epoch": 1.0167714884696017,
      "grad_norm": 0.18070875108242035,
      "learning_rate": 0.0005081236897274634,
      "loss": 0.4222,
      "num_input_tokens_seen": 1267216,
      "step": 1940
    },
    {
      "epoch": 1.019392033542977,
      "grad_norm": 0.19011621177196503,
      "learning_rate": 0.000509433962264151,
      "loss": 0.5375,
      "num_input_tokens_seen": 1270000,
      "step": 1945
    },
    {
      "epoch": 1.0220125786163523,
      "grad_norm": 0.1637384593486786,
      "learning_rate": 0.0005107442348008385,
      "loss": 0.5602,
      "num_input_tokens_seen": 1275920,
      "step": 1950
    },
    {
      "epoch": 1.0246331236897275,
      "grad_norm": 0.1478101909160614,
      "learning_rate": 0.0005120545073375262,
      "loss": 0.2983,
      "num_input_tokens_seen": 1279280,
      "step": 1955
    },
    {
      "epoch": 1.0272536687631026,
      "grad_norm": 0.11418509483337402,
      "learning_rate": 0.0005133647798742138,
      "loss": 0.6489,
      "num_input_tokens_seen": 1282608,
      "step": 1960
    },
    {
      "epoch": 1.029874213836478,
      "grad_norm": 0.17196492850780487,
      "learning_rate": 0.0005146750524109015,
      "loss": 0.3886,
      "num_input_tokens_seen": 1285136,
      "step": 1965
    },
    {
      "epoch": 1.0324947589098532,
      "grad_norm": 0.1454727202653885,
      "learning_rate": 0.0005159853249475891,
      "loss": 0.5368,
      "num_input_tokens_seen": 1288336,
      "step": 1970
    },
    {
      "epoch": 1.0351153039832286,
      "grad_norm": 0.16447702050209045,
      "learning_rate": 0.0005172955974842768,
      "loss": 0.4263,
      "num_input_tokens_seen": 1290928,
      "step": 1975
    },
    {
      "epoch": 1.0377358490566038,
      "grad_norm": 0.23209230601787567,
      "learning_rate": 0.0005186058700209643,
      "loss": 0.4631,
      "num_input_tokens_seen": 1294960,
      "step": 1980
    },
    {
      "epoch": 1.040356394129979,
      "grad_norm": 0.15226732194423676,
      "learning_rate": 0.0005199161425576519,
      "loss": 0.5424,
      "num_input_tokens_seen": 1298960,
      "step": 1985
    },
    {
      "epoch": 1.0429769392033543,
      "grad_norm": 0.23187629878520966,
      "learning_rate": 0.0005212264150943396,
      "loss": 0.5225,
      "num_input_tokens_seen": 1302288,
      "step": 1990
    },
    {
      "epoch": 1.0455974842767295,
      "grad_norm": 0.10997385531663895,
      "learning_rate": 0.0005225366876310272,
      "loss": 0.4435,
      "num_input_tokens_seen": 1305872,
      "step": 1995
    },
    {
      "epoch": 1.0482180293501049,
      "grad_norm": 0.17151740193367004,
      "learning_rate": 0.000523846960167715,
      "loss": 0.4411,
      "num_input_tokens_seen": 1309808,
      "step": 2000
    },
    {
      "epoch": 1.05083857442348,
      "grad_norm": 0.15456221997737885,
      "learning_rate": 0.0005251572327044026,
      "loss": 0.4667,
      "num_input_tokens_seen": 1312400,
      "step": 2005
    },
    {
      "epoch": 1.0534591194968554,
      "grad_norm": 0.15594013035297394,
      "learning_rate": 0.0005264675052410901,
      "loss": 0.5141,
      "num_input_tokens_seen": 1314896,
      "step": 2010
    },
    {
      "epoch": 1.0560796645702306,
      "grad_norm": 0.1976921260356903,
      "learning_rate": 0.0005277777777777778,
      "loss": 0.4863,
      "num_input_tokens_seen": 1317392,
      "step": 2015
    },
    {
      "epoch": 1.0587002096436058,
      "grad_norm": 0.22606851160526276,
      "learning_rate": 0.0005290880503144654,
      "loss": 0.6754,
      "num_input_tokens_seen": 1319920,
      "step": 2020
    },
    {
      "epoch": 1.0613207547169812,
      "grad_norm": 0.1205611526966095,
      "learning_rate": 0.0005303983228511531,
      "loss": 0.5267,
      "num_input_tokens_seen": 1323408,
      "step": 2025
    },
    {
      "epoch": 1.0639412997903563,
      "grad_norm": 0.2781049609184265,
      "learning_rate": 0.0005317085953878407,
      "loss": 0.5274,
      "num_input_tokens_seen": 1326192,
      "step": 2030
    },
    {
      "epoch": 1.0665618448637317,
      "grad_norm": 0.14001613855361938,
      "learning_rate": 0.0005330188679245284,
      "loss": 0.4996,
      "num_input_tokens_seen": 1329648,
      "step": 2035
    },
    {
      "epoch": 1.069182389937107,
      "grad_norm": 0.12667252123355865,
      "learning_rate": 0.000534329140461216,
      "loss": 0.6132,
      "num_input_tokens_seen": 1332720,
      "step": 2040
    },
    {
      "epoch": 1.0718029350104823,
      "grad_norm": 0.14670486748218536,
      "learning_rate": 0.0005356394129979035,
      "loss": 0.3656,
      "num_input_tokens_seen": 1338288,
      "step": 2045
    },
    {
      "epoch": 1.0744234800838575,
      "grad_norm": 0.23192650079727173,
      "learning_rate": 0.0005369496855345912,
      "loss": 0.5578,
      "num_input_tokens_seen": 1341040,
      "step": 2050
    },
    {
      "epoch": 1.0770440251572326,
      "grad_norm": 0.20558032393455505,
      "learning_rate": 0.0005382599580712788,
      "loss": 0.5451,
      "num_input_tokens_seen": 1343920,
      "step": 2055
    },
    {
      "epoch": 1.079664570230608,
      "grad_norm": 0.1725059449672699,
      "learning_rate": 0.0005395702306079665,
      "loss": 0.4538,
      "num_input_tokens_seen": 1346832,
      "step": 2060
    },
    {
      "epoch": 1.0822851153039832,
      "grad_norm": 0.18941642343997955,
      "learning_rate": 0.0005408805031446541,
      "loss": 0.4553,
      "num_input_tokens_seen": 1350160,
      "step": 2065
    },
    {
      "epoch": 1.0849056603773586,
      "grad_norm": 0.1264190524816513,
      "learning_rate": 0.0005421907756813418,
      "loss": 0.5704,
      "num_input_tokens_seen": 1354128,
      "step": 2070
    },
    {
      "epoch": 1.0875262054507338,
      "grad_norm": 0.09105237573385239,
      "learning_rate": 0.0005435010482180293,
      "loss": 0.4661,
      "num_input_tokens_seen": 1357840,
      "step": 2075
    },
    {
      "epoch": 1.090146750524109,
      "grad_norm": 0.15594081580638885,
      "learning_rate": 0.0005448113207547169,
      "loss": 0.5666,
      "num_input_tokens_seen": 1360560,
      "step": 2080
    },
    {
      "epoch": 1.0927672955974843,
      "grad_norm": 0.08804728090763092,
      "learning_rate": 0.0005461215932914046,
      "loss": 0.4054,
      "num_input_tokens_seen": 1364176,
      "step": 2085
    },
    {
      "epoch": 1.0953878406708595,
      "grad_norm": 0.12985078990459442,
      "learning_rate": 0.0005474318658280922,
      "loss": 0.5346,
      "num_input_tokens_seen": 1367120,
      "step": 2090
    },
    {
      "epoch": 1.0980083857442349,
      "grad_norm": 0.11420982331037521,
      "learning_rate": 0.0005487421383647799,
      "loss": 0.6924,
      "num_input_tokens_seen": 1370800,
      "step": 2095
    },
    {
      "epoch": 1.10062893081761,
      "grad_norm": 0.10716649144887924,
      "learning_rate": 0.0005500524109014676,
      "loss": 0.4656,
      "num_input_tokens_seen": 1374640,
      "step": 2100
    },
    {
      "epoch": 1.1032494758909852,
      "grad_norm": 0.11210207641124725,
      "learning_rate": 0.0005513626834381551,
      "loss": 0.4488,
      "num_input_tokens_seen": 1378000,
      "step": 2105
    },
    {
      "epoch": 1.1058700209643606,
      "grad_norm": 0.11745420843362808,
      "learning_rate": 0.0005526729559748428,
      "loss": 0.4948,
      "num_input_tokens_seen": 1381328,
      "step": 2110
    },
    {
      "epoch": 1.1084905660377358,
      "grad_norm": 0.17485684156417847,
      "learning_rate": 0.0005539832285115304,
      "loss": 0.447,
      "num_input_tokens_seen": 1383600,
      "step": 2115
    },
    {
      "epoch": 1.1111111111111112,
      "grad_norm": 0.12848562002182007,
      "learning_rate": 0.0005552935010482181,
      "loss": 0.5053,
      "num_input_tokens_seen": 1387024,
      "step": 2120
    },
    {
      "epoch": 1.1137316561844863,
      "grad_norm": 0.09339753538370132,
      "learning_rate": 0.0005566037735849057,
      "loss": 0.4288,
      "num_input_tokens_seen": 1390352,
      "step": 2125
    },
    {
      "epoch": 1.1163522012578617,
      "grad_norm": 0.14676129817962646,
      "learning_rate": 0.0005579140461215934,
      "loss": 0.5056,
      "num_input_tokens_seen": 1393328,
      "step": 2130
    },
    {
      "epoch": 1.118972746331237,
      "grad_norm": 0.10269978642463684,
      "learning_rate": 0.000559224318658281,
      "loss": 0.4292,
      "num_input_tokens_seen": 1396688,
      "step": 2135
    },
    {
      "epoch": 1.121593291404612,
      "grad_norm": 0.14291280508041382,
      "learning_rate": 0.0005605345911949685,
      "loss": 0.567,
      "num_input_tokens_seen": 1400400,
      "step": 2140
    },
    {
      "epoch": 1.1242138364779874,
      "grad_norm": 0.1551722139120102,
      "learning_rate": 0.0005618448637316562,
      "loss": 0.4374,
      "num_input_tokens_seen": 1404144,
      "step": 2145
    },
    {
      "epoch": 1.1268343815513626,
      "grad_norm": 0.25732970237731934,
      "learning_rate": 0.0005631551362683438,
      "loss": 0.5813,
      "num_input_tokens_seen": 1406960,
      "step": 2150
    },
    {
      "epoch": 1.129454926624738,
      "grad_norm": 0.1467643678188324,
      "learning_rate": 0.0005644654088050315,
      "loss": 0.438,
      "num_input_tokens_seen": 1409840,
      "step": 2155
    },
    {
      "epoch": 1.1320754716981132,
      "grad_norm": 0.13819041848182678,
      "learning_rate": 0.0005657756813417191,
      "loss": 0.6529,
      "num_input_tokens_seen": 1412944,
      "step": 2160
    },
    {
      "epoch": 1.1346960167714886,
      "grad_norm": 0.1172197237610817,
      "learning_rate": 0.0005670859538784067,
      "loss": 0.416,
      "num_input_tokens_seen": 1416272,
      "step": 2165
    },
    {
      "epoch": 1.1373165618448637,
      "grad_norm": 0.20153194665908813,
      "learning_rate": 0.0005683962264150943,
      "loss": 0.6814,
      "num_input_tokens_seen": 1419248,
      "step": 2170
    },
    {
      "epoch": 1.139937106918239,
      "grad_norm": 0.09589927643537521,
      "learning_rate": 0.0005697064989517819,
      "loss": 0.5021,
      "num_input_tokens_seen": 1422352,
      "step": 2175
    },
    {
      "epoch": 1.1425576519916143,
      "grad_norm": 0.09254366159439087,
      "learning_rate": 0.0005710167714884696,
      "loss": 0.4058,
      "num_input_tokens_seen": 1425808,
      "step": 2180
    },
    {
      "epoch": 1.1451781970649895,
      "grad_norm": 0.20272371172904968,
      "learning_rate": 0.0005723270440251572,
      "loss": 0.6361,
      "num_input_tokens_seen": 1429392,
      "step": 2185
    },
    {
      "epoch": 1.1477987421383649,
      "grad_norm": 0.2628677785396576,
      "learning_rate": 0.0005736373165618449,
      "loss": 0.4437,
      "num_input_tokens_seen": 1432208,
      "step": 2190
    },
    {
      "epoch": 1.15041928721174,
      "grad_norm": 0.20173826813697815,
      "learning_rate": 0.0005749475890985325,
      "loss": 0.4451,
      "num_input_tokens_seen": 1434928,
      "step": 2195
    },
    {
      "epoch": 1.1530398322851152,
      "grad_norm": 0.1736973524093628,
      "learning_rate": 0.0005762578616352201,
      "loss": 0.4662,
      "num_input_tokens_seen": 1438192,
      "step": 2200
    },
    {
      "epoch": 1.1556603773584906,
      "grad_norm": 0.16819383203983307,
      "learning_rate": 0.0005775681341719078,
      "loss": 0.4992,
      "num_input_tokens_seen": 1441136,
      "step": 2205
    },
    {
      "epoch": 1.1582809224318658,
      "grad_norm": 0.09951542317867279,
      "learning_rate": 0.0005788784067085954,
      "loss": 0.5441,
      "num_input_tokens_seen": 1444528,
      "step": 2210
    },
    {
      "epoch": 1.1609014675052411,
      "grad_norm": 0.1540384590625763,
      "learning_rate": 0.0005801886792452831,
      "loss": 0.6232,
      "num_input_tokens_seen": 1448240,
      "step": 2215
    },
    {
      "epoch": 1.1635220125786163,
      "grad_norm": 0.13546206057071686,
      "learning_rate": 0.0005814989517819707,
      "loss": 0.7787,
      "num_input_tokens_seen": 1451792,
      "step": 2220
    },
    {
      "epoch": 1.1661425576519917,
      "grad_norm": 0.20958447456359863,
      "learning_rate": 0.0005828092243186583,
      "loss": 0.5239,
      "num_input_tokens_seen": 1453904,
      "step": 2225
    },
    {
      "epoch": 1.1687631027253669,
      "grad_norm": 0.16934819519519806,
      "learning_rate": 0.000584119496855346,
      "loss": 0.5263,
      "num_input_tokens_seen": 1457200,
      "step": 2230
    },
    {
      "epoch": 1.171383647798742,
      "grad_norm": 0.12457158416509628,
      "learning_rate": 0.0005854297693920335,
      "loss": 0.4448,
      "num_input_tokens_seen": 1461488,
      "step": 2235
    },
    {
      "epoch": 1.1740041928721174,
      "grad_norm": 0.10771060734987259,
      "learning_rate": 0.0005867400419287212,
      "loss": 0.4574,
      "num_input_tokens_seen": 1464080,
      "step": 2240
    },
    {
      "epoch": 1.1766247379454926,
      "grad_norm": 0.13022394478321075,
      "learning_rate": 0.0005880503144654088,
      "loss": 0.5243,
      "num_input_tokens_seen": 1466832,
      "step": 2245
    },
    {
      "epoch": 1.179245283018868,
      "grad_norm": 0.22469642758369446,
      "learning_rate": 0.0005893605870020965,
      "loss": 0.4111,
      "num_input_tokens_seen": 1469520,
      "step": 2250
    },
    {
      "epoch": 1.1818658280922432,
      "grad_norm": 0.16571453213691711,
      "learning_rate": 0.0005906708595387841,
      "loss": 0.6244,
      "num_input_tokens_seen": 1476336,
      "step": 2255
    },
    {
      "epoch": 1.1844863731656186,
      "grad_norm": 0.10296736657619476,
      "learning_rate": 0.0005919811320754716,
      "loss": 0.5018,
      "num_input_tokens_seen": 1479984,
      "step": 2260
    },
    {
      "epoch": 1.1871069182389937,
      "grad_norm": 0.07638319581747055,
      "learning_rate": 0.0005932914046121593,
      "loss": 0.4457,
      "num_input_tokens_seen": 1483056,
      "step": 2265
    },
    {
      "epoch": 1.189727463312369,
      "grad_norm": 0.4141876697540283,
      "learning_rate": 0.0005946016771488469,
      "loss": 0.5179,
      "num_input_tokens_seen": 1485936,
      "step": 2270
    },
    {
      "epoch": 1.1923480083857443,
      "grad_norm": 0.12622198462486267,
      "learning_rate": 0.0005959119496855346,
      "loss": 0.4657,
      "num_input_tokens_seen": 1488688,
      "step": 2275
    },
    {
      "epoch": 1.1949685534591195,
      "grad_norm": 0.09650406986474991,
      "learning_rate": 0.0005972222222222222,
      "loss": 0.5817,
      "num_input_tokens_seen": 1492272,
      "step": 2280
    },
    {
      "epoch": 1.1975890985324948,
      "grad_norm": 0.08697400987148285,
      "learning_rate": 0.0005985324947589099,
      "loss": 0.3478,
      "num_input_tokens_seen": 1495504,
      "step": 2285
    },
    {
      "epoch": 1.20020964360587,
      "grad_norm": 0.12305939942598343,
      "learning_rate": 0.0005998427672955975,
      "loss": 0.5561,
      "num_input_tokens_seen": 1498736,
      "step": 2290
    },
    {
      "epoch": 1.2028301886792452,
      "grad_norm": 0.12475860118865967,
      "learning_rate": 0.000601153039832285,
      "loss": 0.4406,
      "num_input_tokens_seen": 1501616,
      "step": 2295
    },
    {
      "epoch": 1.2054507337526206,
      "grad_norm": 0.09301799535751343,
      "learning_rate": 0.0006024633123689728,
      "loss": 0.579,
      "num_input_tokens_seen": 1504560,
      "step": 2300
    },
    {
      "epoch": 1.2080712788259957,
      "grad_norm": 0.26785385608673096,
      "learning_rate": 0.0006037735849056604,
      "loss": 0.5052,
      "num_input_tokens_seen": 1508080,
      "step": 2305
    },
    {
      "epoch": 1.2106918238993711,
      "grad_norm": 0.07866187393665314,
      "learning_rate": 0.0006050838574423481,
      "loss": 0.436,
      "num_input_tokens_seen": 1511824,
      "step": 2310
    },
    {
      "epoch": 1.2133123689727463,
      "grad_norm": 0.1329001933336258,
      "learning_rate": 0.0006063941299790357,
      "loss": 0.3811,
      "num_input_tokens_seen": 1515088,
      "step": 2315
    },
    {
      "epoch": 1.2159329140461215,
      "grad_norm": 0.17239350080490112,
      "learning_rate": 0.0006077044025157233,
      "loss": 0.4256,
      "num_input_tokens_seen": 1517744,
      "step": 2320
    },
    {
      "epoch": 1.2185534591194969,
      "grad_norm": 0.18027552962303162,
      "learning_rate": 0.000609014675052411,
      "loss": 0.5346,
      "num_input_tokens_seen": 1521808,
      "step": 2325
    },
    {
      "epoch": 1.221174004192872,
      "grad_norm": 0.08565854281187057,
      "learning_rate": 0.0006103249475890985,
      "loss": 0.437,
      "num_input_tokens_seen": 1525296,
      "step": 2330
    },
    {
      "epoch": 1.2237945492662474,
      "grad_norm": 0.16205695271492004,
      "learning_rate": 0.0006116352201257862,
      "loss": 0.5547,
      "num_input_tokens_seen": 1527856,
      "step": 2335
    },
    {
      "epoch": 1.2264150943396226,
      "grad_norm": 0.14829520881175995,
      "learning_rate": 0.0006129454926624738,
      "loss": 0.4185,
      "num_input_tokens_seen": 1530384,
      "step": 2340
    },
    {
      "epoch": 1.229035639412998,
      "grad_norm": 0.14171425998210907,
      "learning_rate": 0.0006142557651991615,
      "loss": 0.3238,
      "num_input_tokens_seen": 1534224,
      "step": 2345
    },
    {
      "epoch": 1.2316561844863732,
      "grad_norm": 0.13006316125392914,
      "learning_rate": 0.0006155660377358491,
      "loss": 0.441,
      "num_input_tokens_seen": 1536656,
      "step": 2350
    },
    {
      "epoch": 1.2342767295597485,
      "grad_norm": 0.11080288887023926,
      "learning_rate": 0.0006168763102725366,
      "loss": 0.5311,
      "num_input_tokens_seen": 1541168,
      "step": 2355
    },
    {
      "epoch": 1.2368972746331237,
      "grad_norm": 0.2424725890159607,
      "learning_rate": 0.0006181865828092243,
      "loss": 0.485,
      "num_input_tokens_seen": 1543632,
      "step": 2360
    },
    {
      "epoch": 1.2395178197064989,
      "grad_norm": 0.12066680192947388,
      "learning_rate": 0.0006194968553459119,
      "loss": 0.4254,
      "num_input_tokens_seen": 1548816,
      "step": 2365
    },
    {
      "epoch": 1.2421383647798743,
      "grad_norm": 0.12973693013191223,
      "learning_rate": 0.0006208071278825996,
      "loss": 0.4583,
      "num_input_tokens_seen": 1552368,
      "step": 2370
    },
    {
      "epoch": 1.2447589098532494,
      "grad_norm": 0.2821328043937683,
      "learning_rate": 0.0006221174004192872,
      "loss": 0.5384,
      "num_input_tokens_seen": 1555504,
      "step": 2375
    },
    {
      "epoch": 1.2473794549266248,
      "grad_norm": 0.21269966661930084,
      "learning_rate": 0.0006234276729559748,
      "loss": 0.4924,
      "num_input_tokens_seen": 1558096,
      "step": 2380
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4125283360481262,
      "learning_rate": 0.0006247379454926625,
      "loss": 0.5573,
      "num_input_tokens_seen": 1561008,
      "step": 2385
    },
    {
      "epoch": 1.2526205450733752,
      "grad_norm": 0.0877058357000351,
      "learning_rate": 0.00062604821802935,
      "loss": 0.5724,
      "num_input_tokens_seen": 1564176,
      "step": 2390
    },
    {
      "epoch": 1.2552410901467506,
      "grad_norm": 0.09880056977272034,
      "learning_rate": 0.0006273584905660377,
      "loss": 0.4116,
      "num_input_tokens_seen": 1566992,
      "step": 2395
    },
    {
      "epoch": 1.2578616352201257,
      "grad_norm": 0.1040632501244545,
      "learning_rate": 0.0006286687631027254,
      "loss": 0.4549,
      "num_input_tokens_seen": 1570352,
      "step": 2400
    },
    {
      "epoch": 1.2604821802935011,
      "grad_norm": 0.1448308825492859,
      "learning_rate": 0.0006299790356394131,
      "loss": 0.4262,
      "num_input_tokens_seen": 1573040,
      "step": 2405
    },
    {
      "epoch": 1.2631027253668763,
      "grad_norm": 0.13731499016284943,
      "learning_rate": 0.0006312893081761007,
      "loss": 0.4596,
      "num_input_tokens_seen": 1576944,
      "step": 2410
    },
    {
      "epoch": 1.2657232704402515,
      "grad_norm": 0.14171597361564636,
      "learning_rate": 0.0006325995807127883,
      "loss": 0.459,
      "num_input_tokens_seen": 1580080,
      "step": 2415
    },
    {
      "epoch": 1.2683438155136268,
      "grad_norm": 0.1030120849609375,
      "learning_rate": 0.000633909853249476,
      "loss": 0.4436,
      "num_input_tokens_seen": 1582512,
      "step": 2420
    },
    {
      "epoch": 1.270964360587002,
      "grad_norm": 0.2357126623392105,
      "learning_rate": 0.0006352201257861635,
      "loss": 0.5071,
      "num_input_tokens_seen": 1586512,
      "step": 2425
    },
    {
      "epoch": 1.2735849056603774,
      "grad_norm": 0.177446648478508,
      "learning_rate": 0.0006365303983228512,
      "loss": 0.5634,
      "num_input_tokens_seen": 1589296,
      "step": 2430
    },
    {
      "epoch": 1.2762054507337526,
      "grad_norm": 0.24534736573696136,
      "learning_rate": 0.0006378406708595388,
      "loss": 0.5314,
      "num_input_tokens_seen": 1592656,
      "step": 2435
    },
    {
      "epoch": 1.2788259958071277,
      "grad_norm": 0.11998352408409119,
      "learning_rate": 0.0006391509433962265,
      "loss": 0.5947,
      "num_input_tokens_seen": 1596368,
      "step": 2440
    },
    {
      "epoch": 1.2814465408805031,
      "grad_norm": 0.1204332485795021,
      "learning_rate": 0.0006404612159329141,
      "loss": 0.4973,
      "num_input_tokens_seen": 1598832,
      "step": 2445
    },
    {
      "epoch": 1.2840670859538785,
      "grad_norm": 0.12166057527065277,
      "learning_rate": 0.0006417714884696016,
      "loss": 0.4385,
      "num_input_tokens_seen": 1602992,
      "step": 2450
    },
    {
      "epoch": 1.2866876310272537,
      "grad_norm": 0.20744803547859192,
      "learning_rate": 0.0006430817610062893,
      "loss": 0.5608,
      "num_input_tokens_seen": 1607344,
      "step": 2455
    },
    {
      "epoch": 1.2893081761006289,
      "grad_norm": 0.12588734924793243,
      "learning_rate": 0.0006443920335429769,
      "loss": 0.5756,
      "num_input_tokens_seen": 1610992,
      "step": 2460
    },
    {
      "epoch": 1.2919287211740043,
      "grad_norm": 0.1767616868019104,
      "learning_rate": 0.0006457023060796646,
      "loss": 0.4894,
      "num_input_tokens_seen": 1614000,
      "step": 2465
    },
    {
      "epoch": 1.2945492662473794,
      "grad_norm": 0.13076360523700714,
      "learning_rate": 0.0006470125786163522,
      "loss": 0.5415,
      "num_input_tokens_seen": 1616752,
      "step": 2470
    },
    {
      "epoch": 1.2971698113207548,
      "grad_norm": 0.0880870446562767,
      "learning_rate": 0.0006483228511530398,
      "loss": 0.7884,
      "num_input_tokens_seen": 1620144,
      "step": 2475
    },
    {
      "epoch": 1.29979035639413,
      "grad_norm": 0.10934019088745117,
      "learning_rate": 0.0006496331236897275,
      "loss": 0.4255,
      "num_input_tokens_seen": 1624880,
      "step": 2480
    },
    {
      "epoch": 1.3024109014675052,
      "grad_norm": 0.07651826739311218,
      "learning_rate": 0.000650943396226415,
      "loss": 0.5608,
      "num_input_tokens_seen": 1627984,
      "step": 2485
    },
    {
      "epoch": 1.3050314465408805,
      "grad_norm": 0.07788640260696411,
      "learning_rate": 0.0006522536687631027,
      "loss": 0.6322,
      "num_input_tokens_seen": 1631408,
      "step": 2490
    },
    {
      "epoch": 1.3076519916142557,
      "grad_norm": 0.15347476303577423,
      "learning_rate": 0.0006535639412997903,
      "loss": 0.6583,
      "num_input_tokens_seen": 1635248,
      "step": 2495
    },
    {
      "epoch": 1.310272536687631,
      "grad_norm": 0.11089891940355301,
      "learning_rate": 0.0006548742138364781,
      "loss": 0.4552,
      "num_input_tokens_seen": 1637904,
      "step": 2500
    },
    {
      "epoch": 1.3128930817610063,
      "grad_norm": 0.13878372311592102,
      "learning_rate": 0.0006561844863731657,
      "loss": 0.4521,
      "num_input_tokens_seen": 1643216,
      "step": 2505
    },
    {
      "epoch": 1.3155136268343814,
      "grad_norm": 0.07394298166036606,
      "learning_rate": 0.0006574947589098533,
      "loss": 0.5068,
      "num_input_tokens_seen": 1646320,
      "step": 2510
    },
    {
      "epoch": 1.3181341719077568,
      "grad_norm": 0.14928440749645233,
      "learning_rate": 0.000658805031446541,
      "loss": 0.4413,
      "num_input_tokens_seen": 1650192,
      "step": 2515
    },
    {
      "epoch": 1.320754716981132,
      "grad_norm": 0.19446459412574768,
      "learning_rate": 0.0006601153039832285,
      "loss": 0.5291,
      "num_input_tokens_seen": 1653840,
      "step": 2520
    },
    {
      "epoch": 1.3233752620545074,
      "grad_norm": 0.0687880665063858,
      "learning_rate": 0.0006614255765199162,
      "loss": 0.4629,
      "num_input_tokens_seen": 1656944,
      "step": 2525
    },
    {
      "epoch": 1.3259958071278826,
      "grad_norm": 0.10385306179523468,
      "learning_rate": 0.0006627358490566038,
      "loss": 0.5498,
      "num_input_tokens_seen": 1661424,
      "step": 2530
    },
    {
      "epoch": 1.3286163522012577,
      "grad_norm": 0.10187897831201553,
      "learning_rate": 0.0006640461215932914,
      "loss": 0.4592,
      "num_input_tokens_seen": 1664976,
      "step": 2535
    },
    {
      "epoch": 1.3312368972746331,
      "grad_norm": 0.09451780468225479,
      "learning_rate": 0.0006653563941299791,
      "loss": 0.4877,
      "num_input_tokens_seen": 1668528,
      "step": 2540
    },
    {
      "epoch": 1.3338574423480085,
      "grad_norm": 0.08688434213399887,
      "learning_rate": 0.0006666666666666666,
      "loss": 0.4427,
      "num_input_tokens_seen": 1671888,
      "step": 2545
    },
    {
      "epoch": 1.3364779874213837,
      "grad_norm": 0.12887440621852875,
      "learning_rate": 0.0006679769392033543,
      "loss": 0.4163,
      "num_input_tokens_seen": 1675280,
      "step": 2550
    },
    {
      "epoch": 1.3390985324947589,
      "grad_norm": 0.14193680882453918,
      "learning_rate": 0.0006692872117400419,
      "loss": 0.4666,
      "num_input_tokens_seen": 1678256,
      "step": 2555
    },
    {
      "epoch": 1.3417190775681342,
      "grad_norm": 0.23863264918327332,
      "learning_rate": 0.0006705974842767296,
      "loss": 0.5592,
      "num_input_tokens_seen": 1681360,
      "step": 2560
    },
    {
      "epoch": 1.3443396226415094,
      "grad_norm": 0.08930865675210953,
      "learning_rate": 0.0006719077568134172,
      "loss": 0.5675,
      "num_input_tokens_seen": 1684752,
      "step": 2565
    },
    {
      "epoch": 1.3469601677148848,
      "grad_norm": 0.09529303759336472,
      "learning_rate": 0.0006732180293501048,
      "loss": 0.424,
      "num_input_tokens_seen": 1689072,
      "step": 2570
    },
    {
      "epoch": 1.34958071278826,
      "grad_norm": 0.12925985455513,
      "learning_rate": 0.0006745283018867925,
      "loss": 0.4895,
      "num_input_tokens_seen": 1692048,
      "step": 2575
    },
    {
      "epoch": 1.3522012578616351,
      "grad_norm": 0.3702505826950073,
      "learning_rate": 0.00067583857442348,
      "loss": 0.469,
      "num_input_tokens_seen": 1694800,
      "step": 2580
    },
    {
      "epoch": 1.3548218029350105,
      "grad_norm": 0.08809491991996765,
      "learning_rate": 0.0006771488469601677,
      "loss": 0.5128,
      "num_input_tokens_seen": 1698768,
      "step": 2585
    },
    {
      "epoch": 1.3574423480083857,
      "grad_norm": 0.29475128650665283,
      "learning_rate": 0.0006784591194968553,
      "loss": 0.5307,
      "num_input_tokens_seen": 1701616,
      "step": 2590
    },
    {
      "epoch": 1.360062893081761,
      "grad_norm": 0.1736944168806076,
      "learning_rate": 0.0006797693920335431,
      "loss": 0.4932,
      "num_input_tokens_seen": 1704528,
      "step": 2595
    },
    {
      "epoch": 1.3626834381551363,
      "grad_norm": 0.11672137677669525,
      "learning_rate": 0.0006810796645702307,
      "loss": 0.4763,
      "num_input_tokens_seen": 1708112,
      "step": 2600
    },
    {
      "epoch": 1.3653039832285114,
      "grad_norm": 0.1308758556842804,
      "learning_rate": 0.0006823899371069183,
      "loss": 0.3792,
      "num_input_tokens_seen": 1710864,
      "step": 2605
    },
    {
      "epoch": 1.3679245283018868,
      "grad_norm": 0.1350155472755432,
      "learning_rate": 0.0006837002096436059,
      "loss": 0.3514,
      "num_input_tokens_seen": 1713648,
      "step": 2610
    },
    {
      "epoch": 1.370545073375262,
      "grad_norm": 0.17602184414863586,
      "learning_rate": 0.0006850104821802935,
      "loss": 0.5837,
      "num_input_tokens_seen": 1716176,
      "step": 2615
    },
    {
      "epoch": 1.3731656184486374,
      "grad_norm": 0.1182502880692482,
      "learning_rate": 0.0006863207547169812,
      "loss": 0.4239,
      "num_input_tokens_seen": 1719344,
      "step": 2620
    },
    {
      "epoch": 1.3757861635220126,
      "grad_norm": 0.09987853467464447,
      "learning_rate": 0.0006876310272536688,
      "loss": 0.4704,
      "num_input_tokens_seen": 1722800,
      "step": 2625
    },
    {
      "epoch": 1.3784067085953877,
      "grad_norm": 0.3172299563884735,
      "learning_rate": 0.0006889412997903564,
      "loss": 0.6204,
      "num_input_tokens_seen": 1725840,
      "step": 2630
    },
    {
      "epoch": 1.381027253668763,
      "grad_norm": 0.09529207646846771,
      "learning_rate": 0.0006902515723270441,
      "loss": 0.4911,
      "num_input_tokens_seen": 1729424,
      "step": 2635
    },
    {
      "epoch": 1.3836477987421385,
      "grad_norm": 0.105141282081604,
      "learning_rate": 0.0006915618448637316,
      "loss": 0.5377,
      "num_input_tokens_seen": 1734128,
      "step": 2640
    },
    {
      "epoch": 1.3862683438155137,
      "grad_norm": 0.1503298580646515,
      "learning_rate": 0.0006928721174004193,
      "loss": 0.5569,
      "num_input_tokens_seen": 1737136,
      "step": 2645
    },
    {
      "epoch": 1.3888888888888888,
      "grad_norm": 0.15116620063781738,
      "learning_rate": 0.0006941823899371069,
      "loss": 0.5797,
      "num_input_tokens_seen": 1739696,
      "step": 2650
    },
    {
      "epoch": 1.3915094339622642,
      "grad_norm": 0.10755372047424316,
      "learning_rate": 0.0006954926624737946,
      "loss": 0.4774,
      "num_input_tokens_seen": 1742608,
      "step": 2655
    },
    {
      "epoch": 1.3941299790356394,
      "grad_norm": 0.08882986754179001,
      "learning_rate": 0.0006968029350104822,
      "loss": 0.4865,
      "num_input_tokens_seen": 1745584,
      "step": 2660
    },
    {
      "epoch": 1.3967505241090148,
      "grad_norm": 0.0859137549996376,
      "learning_rate": 0.0006981132075471698,
      "loss": 0.4966,
      "num_input_tokens_seen": 1748976,
      "step": 2665
    },
    {
      "epoch": 1.39937106918239,
      "grad_norm": 0.12677563726902008,
      "learning_rate": 0.0006994234800838574,
      "loss": 0.7143,
      "num_input_tokens_seen": 1751696,
      "step": 2670
    },
    {
      "epoch": 1.4019916142557651,
      "grad_norm": 0.1341167390346527,
      "learning_rate": 0.000700733752620545,
      "loss": 0.6081,
      "num_input_tokens_seen": 1754640,
      "step": 2675
    },
    {
      "epoch": 1.4046121593291405,
      "grad_norm": 0.22201484441757202,
      "learning_rate": 0.0007020440251572327,
      "loss": 0.5886,
      "num_input_tokens_seen": 1757488,
      "step": 2680
    },
    {
      "epoch": 1.4072327044025157,
      "grad_norm": 0.15381987392902374,
      "learning_rate": 0.0007033542976939203,
      "loss": 0.5431,
      "num_input_tokens_seen": 1760368,
      "step": 2685
    },
    {
      "epoch": 1.409853249475891,
      "grad_norm": 0.06593143939971924,
      "learning_rate": 0.0007046645702306079,
      "loss": 0.4355,
      "num_input_tokens_seen": 1763184,
      "step": 2690
    },
    {
      "epoch": 1.4124737945492662,
      "grad_norm": 0.11388625204563141,
      "learning_rate": 0.0007059748427672957,
      "loss": 0.4394,
      "num_input_tokens_seen": 1766352,
      "step": 2695
    },
    {
      "epoch": 1.4150943396226414,
      "grad_norm": 0.10242903232574463,
      "learning_rate": 0.0007072851153039833,
      "loss": 0.6033,
      "num_input_tokens_seen": 1769936,
      "step": 2700
    },
    {
      "epoch": 1.4177148846960168,
      "grad_norm": 0.13011600077152252,
      "learning_rate": 0.0007085953878406709,
      "loss": 0.6289,
      "num_input_tokens_seen": 1773040,
      "step": 2705
    },
    {
      "epoch": 1.420335429769392,
      "grad_norm": 0.09831605106592178,
      "learning_rate": 0.0007099056603773585,
      "loss": 0.4735,
      "num_input_tokens_seen": 1776688,
      "step": 2710
    },
    {
      "epoch": 1.4229559748427674,
      "grad_norm": 0.11835507303476334,
      "learning_rate": 0.0007112159329140462,
      "loss": 0.5104,
      "num_input_tokens_seen": 1779728,
      "step": 2715
    },
    {
      "epoch": 1.4255765199161425,
      "grad_norm": 0.10095912963151932,
      "learning_rate": 0.0007125262054507338,
      "loss": 0.4306,
      "num_input_tokens_seen": 1783056,
      "step": 2720
    },
    {
      "epoch": 1.4281970649895177,
      "grad_norm": 0.11973775923252106,
      "learning_rate": 0.0007138364779874214,
      "loss": 0.5243,
      "num_input_tokens_seen": 1785840,
      "step": 2725
    },
    {
      "epoch": 1.430817610062893,
      "grad_norm": 0.14091463387012482,
      "learning_rate": 0.0007151467505241091,
      "loss": 0.5472,
      "num_input_tokens_seen": 1788080,
      "step": 2730
    },
    {
      "epoch": 1.4334381551362683,
      "grad_norm": 0.1129193902015686,
      "learning_rate": 0.0007164570230607966,
      "loss": 0.6488,
      "num_input_tokens_seen": 1791600,
      "step": 2735
    },
    {
      "epoch": 1.4360587002096437,
      "grad_norm": 0.09745875746011734,
      "learning_rate": 0.0007177672955974843,
      "loss": 0.5414,
      "num_input_tokens_seen": 1794832,
      "step": 2740
    },
    {
      "epoch": 1.4386792452830188,
      "grad_norm": 0.1486639529466629,
      "learning_rate": 0.0007190775681341719,
      "loss": 0.5938,
      "num_input_tokens_seen": 1798256,
      "step": 2745
    },
    {
      "epoch": 1.441299790356394,
      "grad_norm": 0.0908990353345871,
      "learning_rate": 0.0007203878406708596,
      "loss": 0.5552,
      "num_input_tokens_seen": 1802224,
      "step": 2750
    },
    {
      "epoch": 1.4439203354297694,
      "grad_norm": 0.09045150876045227,
      "learning_rate": 0.0007216981132075472,
      "loss": 0.4041,
      "num_input_tokens_seen": 1805648,
      "step": 2755
    },
    {
      "epoch": 1.4465408805031448,
      "grad_norm": 0.12351036071777344,
      "learning_rate": 0.0007230083857442348,
      "loss": 0.474,
      "num_input_tokens_seen": 1808528,
      "step": 2760
    },
    {
      "epoch": 1.44916142557652,
      "grad_norm": 0.08231468498706818,
      "learning_rate": 0.0007243186582809224,
      "loss": 0.4979,
      "num_input_tokens_seen": 1811888,
      "step": 2765
    },
    {
      "epoch": 1.4517819706498951,
      "grad_norm": 0.13181644678115845,
      "learning_rate": 0.00072562893081761,
      "loss": 0.4831,
      "num_input_tokens_seen": 1814672,
      "step": 2770
    },
    {
      "epoch": 1.4544025157232705,
      "grad_norm": 0.1597260981798172,
      "learning_rate": 0.0007269392033542977,
      "loss": 0.5021,
      "num_input_tokens_seen": 1817552,
      "step": 2775
    },
    {
      "epoch": 1.4570230607966457,
      "grad_norm": 0.09516872465610504,
      "learning_rate": 0.0007282494758909853,
      "loss": 0.489,
      "num_input_tokens_seen": 1820464,
      "step": 2780
    },
    {
      "epoch": 1.459643605870021,
      "grad_norm": 0.12500950694084167,
      "learning_rate": 0.0007295597484276729,
      "loss": 0.5062,
      "num_input_tokens_seen": 1823152,
      "step": 2785
    },
    {
      "epoch": 1.4622641509433962,
      "grad_norm": 0.16774603724479675,
      "learning_rate": 0.0007308700209643606,
      "loss": 0.4725,
      "num_input_tokens_seen": 1826320,
      "step": 2790
    },
    {
      "epoch": 1.4648846960167714,
      "grad_norm": 0.08779992908239365,
      "learning_rate": 0.0007321802935010483,
      "loss": 0.6546,
      "num_input_tokens_seen": 1830640,
      "step": 2795
    },
    {
      "epoch": 1.4675052410901468,
      "grad_norm": 0.07264798134565353,
      "learning_rate": 0.0007334905660377359,
      "loss": 0.4117,
      "num_input_tokens_seen": 1833712,
      "step": 2800
    },
    {
      "epoch": 1.470125786163522,
      "grad_norm": 0.13411733508110046,
      "learning_rate": 0.0007348008385744235,
      "loss": 0.5802,
      "num_input_tokens_seen": 1837616,
      "step": 2805
    },
    {
      "epoch": 1.4727463312368974,
      "grad_norm": 0.13828395307064056,
      "learning_rate": 0.0007361111111111112,
      "loss": 0.7529,
      "num_input_tokens_seen": 1841264,
      "step": 2810
    },
    {
      "epoch": 1.4753668763102725,
      "grad_norm": 0.14741790294647217,
      "learning_rate": 0.0007374213836477988,
      "loss": 0.446,
      "num_input_tokens_seen": 1843888,
      "step": 2815
    },
    {
      "epoch": 1.4779874213836477,
      "grad_norm": 0.0892370194196701,
      "learning_rate": 0.0007387316561844864,
      "loss": 0.5339,
      "num_input_tokens_seen": 1847440,
      "step": 2820
    },
    {
      "epoch": 1.480607966457023,
      "grad_norm": 0.41962987184524536,
      "learning_rate": 0.0007400419287211741,
      "loss": 0.6487,
      "num_input_tokens_seen": 1850576,
      "step": 2825
    },
    {
      "epoch": 1.4832285115303983,
      "grad_norm": 0.10047175735235214,
      "learning_rate": 0.0007413522012578616,
      "loss": 0.4448,
      "num_input_tokens_seen": 1853200,
      "step": 2830
    },
    {
      "epoch": 1.4858490566037736,
      "grad_norm": 0.36351296305656433,
      "learning_rate": 0.0007426624737945493,
      "loss": 0.6029,
      "num_input_tokens_seen": 1856784,
      "step": 2835
    },
    {
      "epoch": 1.4884696016771488,
      "grad_norm": 0.12063959985971451,
      "learning_rate": 0.0007439727463312369,
      "loss": 0.5895,
      "num_input_tokens_seen": 1859984,
      "step": 2840
    },
    {
      "epoch": 1.491090146750524,
      "grad_norm": 0.07315393537282944,
      "learning_rate": 0.0007452830188679245,
      "loss": 0.4929,
      "num_input_tokens_seen": 1863920,
      "step": 2845
    },
    {
      "epoch": 1.4937106918238994,
      "grad_norm": 0.06422711908817291,
      "learning_rate": 0.0007465932914046122,
      "loss": 0.631,
      "num_input_tokens_seen": 1867664,
      "step": 2850
    },
    {
      "epoch": 1.4963312368972748,
      "grad_norm": 0.15584473311901093,
      "learning_rate": 0.0007479035639412998,
      "loss": 0.5126,
      "num_input_tokens_seen": 1870352,
      "step": 2855
    },
    {
      "epoch": 1.49895178197065,
      "grad_norm": 0.0783686563372612,
      "learning_rate": 0.0007492138364779874,
      "loss": 0.5498,
      "num_input_tokens_seen": 1873488,
      "step": 2860
    },
    {
      "epoch": 1.501572327044025,
      "grad_norm": 0.1340504139661789,
      "learning_rate": 0.000750524109014675,
      "loss": 0.4664,
      "num_input_tokens_seen": 1876496,
      "step": 2865
    },
    {
      "epoch": 1.5041928721174003,
      "grad_norm": 0.13220709562301636,
      "learning_rate": 0.0007518343815513627,
      "loss": 0.603,
      "num_input_tokens_seen": 1880304,
      "step": 2870
    },
    {
      "epoch": 1.5068134171907757,
      "grad_norm": 0.13214769959449768,
      "learning_rate": 0.0007531446540880503,
      "loss": 0.4235,
      "num_input_tokens_seen": 1882960,
      "step": 2875
    },
    {
      "epoch": 1.509433962264151,
      "grad_norm": 0.06940906494855881,
      "learning_rate": 0.0007544549266247379,
      "loss": 0.452,
      "num_input_tokens_seen": 1886288,
      "step": 2880
    },
    {
      "epoch": 1.5120545073375262,
      "grad_norm": 0.11238034814596176,
      "learning_rate": 0.0007557651991614256,
      "loss": 0.4294,
      "num_input_tokens_seen": 1890416,
      "step": 2885
    },
    {
      "epoch": 1.5146750524109014,
      "grad_norm": 0.0828387513756752,
      "learning_rate": 0.0007570754716981131,
      "loss": 0.5482,
      "num_input_tokens_seen": 1893648,
      "step": 2890
    },
    {
      "epoch": 1.5172955974842768,
      "grad_norm": 0.05330995097756386,
      "learning_rate": 0.0007583857442348009,
      "loss": 0.411,
      "num_input_tokens_seen": 1897296,
      "step": 2895
    },
    {
      "epoch": 1.519916142557652,
      "grad_norm": 0.08322314918041229,
      "learning_rate": 0.0007596960167714885,
      "loss": 0.4786,
      "num_input_tokens_seen": 1899856,
      "step": 2900
    },
    {
      "epoch": 1.5225366876310273,
      "grad_norm": 0.07000996917486191,
      "learning_rate": 0.0007610062893081762,
      "loss": 0.3904,
      "num_input_tokens_seen": 1906544,
      "step": 2905
    },
    {
      "epoch": 1.5251572327044025,
      "grad_norm": 0.1087818369269371,
      "learning_rate": 0.0007623165618448638,
      "loss": 0.4718,
      "num_input_tokens_seen": 1909680,
      "step": 2910
    },
    {
      "epoch": 1.5277777777777777,
      "grad_norm": 0.04734044522047043,
      "learning_rate": 0.0007636268343815514,
      "loss": 0.4727,
      "num_input_tokens_seen": 1913008,
      "step": 2915
    },
    {
      "epoch": 1.530398322851153,
      "grad_norm": 0.08090756833553314,
      "learning_rate": 0.0007649371069182391,
      "loss": 0.5523,
      "num_input_tokens_seen": 1916080,
      "step": 2920
    },
    {
      "epoch": 1.5330188679245285,
      "grad_norm": 0.09342007339000702,
      "learning_rate": 0.0007662473794549266,
      "loss": 0.5575,
      "num_input_tokens_seen": 1919504,
      "step": 2925
    },
    {
      "epoch": 1.5356394129979036,
      "grad_norm": 0.09397720545530319,
      "learning_rate": 0.0007675576519916143,
      "loss": 0.4801,
      "num_input_tokens_seen": 1922736,
      "step": 2930
    },
    {
      "epoch": 1.5382599580712788,
      "grad_norm": 0.10678714513778687,
      "learning_rate": 0.0007688679245283019,
      "loss": 0.3791,
      "num_input_tokens_seen": 1925456,
      "step": 2935
    },
    {
      "epoch": 1.540880503144654,
      "grad_norm": 0.10663667321205139,
      "learning_rate": 0.0007701781970649895,
      "loss": 0.4165,
      "num_input_tokens_seen": 1929936,
      "step": 2940
    },
    {
      "epoch": 1.5435010482180294,
      "grad_norm": 0.0791517123579979,
      "learning_rate": 0.0007714884696016772,
      "loss": 0.4933,
      "num_input_tokens_seen": 1933232,
      "step": 2945
    },
    {
      "epoch": 1.5461215932914047,
      "grad_norm": 0.050596583634614944,
      "learning_rate": 0.0007727987421383648,
      "loss": 0.5537,
      "num_input_tokens_seen": 1938288,
      "step": 2950
    },
    {
      "epoch": 1.54874213836478,
      "grad_norm": 0.13955770432949066,
      "learning_rate": 0.0007741090146750524,
      "loss": 0.4799,
      "num_input_tokens_seen": 1941104,
      "step": 2955
    },
    {
      "epoch": 1.551362683438155,
      "grad_norm": 0.2703804671764374,
      "learning_rate": 0.00077541928721174,
      "loss": 0.3818,
      "num_input_tokens_seen": 1943632,
      "step": 2960
    },
    {
      "epoch": 1.5539832285115303,
      "grad_norm": 0.1716027408838272,
      "learning_rate": 0.0007767295597484277,
      "loss": 0.5917,
      "num_input_tokens_seen": 1946288,
      "step": 2965
    },
    {
      "epoch": 1.5566037735849056,
      "grad_norm": 0.12534521520137787,
      "learning_rate": 0.0007780398322851153,
      "loss": 0.5109,
      "num_input_tokens_seen": 1949264,
      "step": 2970
    },
    {
      "epoch": 1.559224318658281,
      "grad_norm": 0.12678919732570648,
      "learning_rate": 0.0007793501048218029,
      "loss": 0.6318,
      "num_input_tokens_seen": 1952016,
      "step": 2975
    },
    {
      "epoch": 1.5618448637316562,
      "grad_norm": 0.09771657735109329,
      "learning_rate": 0.0007806603773584906,
      "loss": 0.6281,
      "num_input_tokens_seen": 1956112,
      "step": 2980
    },
    {
      "epoch": 1.5644654088050314,
      "grad_norm": 0.14802336692810059,
      "learning_rate": 0.0007819706498951781,
      "loss": 0.5723,
      "num_input_tokens_seen": 1959248,
      "step": 2985
    },
    {
      "epoch": 1.5670859538784065,
      "grad_norm": 0.12220222502946854,
      "learning_rate": 0.0007832809224318658,
      "loss": 0.4042,
      "num_input_tokens_seen": 1961616,
      "step": 2990
    },
    {
      "epoch": 1.569706498951782,
      "grad_norm": 0.10916770994663239,
      "learning_rate": 0.0007845911949685535,
      "loss": 0.5123,
      "num_input_tokens_seen": 1964720,
      "step": 2995
    },
    {
      "epoch": 1.5723270440251573,
      "grad_norm": 0.09265349805355072,
      "learning_rate": 0.0007859014675052411,
      "loss": 0.429,
      "num_input_tokens_seen": 1967280,
      "step": 3000
    },
    {
      "epoch": 1.5749475890985325,
      "grad_norm": 0.0910700336098671,
      "learning_rate": 0.0007872117400419288,
      "loss": 0.5373,
      "num_input_tokens_seen": 1970992,
      "step": 3005
    },
    {
      "epoch": 1.5775681341719077,
      "grad_norm": 0.06098403409123421,
      "learning_rate": 0.0007885220125786164,
      "loss": 0.4387,
      "num_input_tokens_seen": 1974320,
      "step": 3010
    },
    {
      "epoch": 1.580188679245283,
      "grad_norm": 0.1263880580663681,
      "learning_rate": 0.0007898322851153041,
      "loss": 0.3944,
      "num_input_tokens_seen": 1977680,
      "step": 3015
    },
    {
      "epoch": 1.5828092243186582,
      "grad_norm": 0.1282278597354889,
      "learning_rate": 0.0007911425576519916,
      "loss": 0.4753,
      "num_input_tokens_seen": 1980688,
      "step": 3020
    },
    {
      "epoch": 1.5854297693920336,
      "grad_norm": 0.16961711645126343,
      "learning_rate": 0.0007924528301886793,
      "loss": 0.4511,
      "num_input_tokens_seen": 1983728,
      "step": 3025
    },
    {
      "epoch": 1.5880503144654088,
      "grad_norm": 0.10770163685083389,
      "learning_rate": 0.0007937631027253669,
      "loss": 0.4776,
      "num_input_tokens_seen": 1986992,
      "step": 3030
    },
    {
      "epoch": 1.590670859538784,
      "grad_norm": 0.13684742152690887,
      "learning_rate": 0.0007950733752620545,
      "loss": 0.5161,
      "num_input_tokens_seen": 1990032,
      "step": 3035
    },
    {
      "epoch": 1.5932914046121593,
      "grad_norm": 0.10222671926021576,
      "learning_rate": 0.0007963836477987422,
      "loss": 0.4654,
      "num_input_tokens_seen": 1992912,
      "step": 3040
    },
    {
      "epoch": 1.5959119496855347,
      "grad_norm": 0.1643696278333664,
      "learning_rate": 0.0007976939203354298,
      "loss": 0.4336,
      "num_input_tokens_seen": 1995664,
      "step": 3045
    },
    {
      "epoch": 1.59853249475891,
      "grad_norm": 0.06149599701166153,
      "learning_rate": 0.0007990041928721174,
      "loss": 0.4698,
      "num_input_tokens_seen": 1999696,
      "step": 3050
    },
    {
      "epoch": 1.601153039832285,
      "grad_norm": 0.10764371603727341,
      "learning_rate": 0.000800314465408805,
      "loss": 0.4429,
      "num_input_tokens_seen": 2002128,
      "step": 3055
    },
    {
      "epoch": 1.6037735849056602,
      "grad_norm": 0.08865971863269806,
      "learning_rate": 0.0008016247379454927,
      "loss": 0.4849,
      "num_input_tokens_seen": 2005712,
      "step": 3060
    },
    {
      "epoch": 1.6063941299790356,
      "grad_norm": 0.13184331357479095,
      "learning_rate": 0.0008029350104821803,
      "loss": 0.441,
      "num_input_tokens_seen": 2008720,
      "step": 3065
    },
    {
      "epoch": 1.609014675052411,
      "grad_norm": 0.06468042731285095,
      "learning_rate": 0.0008042452830188679,
      "loss": 0.525,
      "num_input_tokens_seen": 2012176,
      "step": 3070
    },
    {
      "epoch": 1.6116352201257862,
      "grad_norm": 0.1377483606338501,
      "learning_rate": 0.0008055555555555556,
      "loss": 0.4872,
      "num_input_tokens_seen": 2014448,
      "step": 3075
    },
    {
      "epoch": 1.6142557651991614,
      "grad_norm": 0.06639322638511658,
      "learning_rate": 0.0008068658280922431,
      "loss": 0.4619,
      "num_input_tokens_seen": 2017488,
      "step": 3080
    },
    {
      "epoch": 1.6168763102725365,
      "grad_norm": 0.14108893275260925,
      "learning_rate": 0.0008081761006289308,
      "loss": 0.3993,
      "num_input_tokens_seen": 2020400,
      "step": 3085
    },
    {
      "epoch": 1.619496855345912,
      "grad_norm": 0.10737954825162888,
      "learning_rate": 0.0008094863731656184,
      "loss": 0.4321,
      "num_input_tokens_seen": 2023216,
      "step": 3090
    },
    {
      "epoch": 1.6221174004192873,
      "grad_norm": 0.08664222806692123,
      "learning_rate": 0.0008107966457023061,
      "loss": 0.5196,
      "num_input_tokens_seen": 2028368,
      "step": 3095
    },
    {
      "epoch": 1.6247379454926625,
      "grad_norm": 0.16121815145015717,
      "learning_rate": 0.0008121069182389938,
      "loss": 0.5188,
      "num_input_tokens_seen": 2030896,
      "step": 3100
    },
    {
      "epoch": 1.6273584905660377,
      "grad_norm": 0.09736143052577972,
      "learning_rate": 0.0008134171907756814,
      "loss": 0.4958,
      "num_input_tokens_seen": 2034128,
      "step": 3105
    },
    {
      "epoch": 1.629979035639413,
      "grad_norm": 0.10315099358558655,
      "learning_rate": 0.0008147274633123691,
      "loss": 0.5339,
      "num_input_tokens_seen": 2037584,
      "step": 3110
    },
    {
      "epoch": 1.6325995807127882,
      "grad_norm": 0.10710591077804565,
      "learning_rate": 0.0008160377358490566,
      "loss": 0.4654,
      "num_input_tokens_seen": 2040368,
      "step": 3115
    },
    {
      "epoch": 1.6352201257861636,
      "grad_norm": 0.07099998742341995,
      "learning_rate": 0.0008173480083857443,
      "loss": 0.5112,
      "num_input_tokens_seen": 2043440,
      "step": 3120
    },
    {
      "epoch": 1.6378406708595388,
      "grad_norm": 0.12999463081359863,
      "learning_rate": 0.0008186582809224319,
      "loss": 0.5802,
      "num_input_tokens_seen": 2046224,
      "step": 3125
    },
    {
      "epoch": 1.640461215932914,
      "grad_norm": 0.10952717810869217,
      "learning_rate": 0.0008199685534591195,
      "loss": 0.4364,
      "num_input_tokens_seen": 2049264,
      "step": 3130
    },
    {
      "epoch": 1.6430817610062893,
      "grad_norm": 0.10004202276468277,
      "learning_rate": 0.0008212788259958072,
      "loss": 0.4743,
      "num_input_tokens_seen": 2053232,
      "step": 3135
    },
    {
      "epoch": 1.6457023060796647,
      "grad_norm": 0.11821291595697403,
      "learning_rate": 0.0008225890985324948,
      "loss": 0.421,
      "num_input_tokens_seen": 2056592,
      "step": 3140
    },
    {
      "epoch": 1.64832285115304,
      "grad_norm": 0.09811805933713913,
      "learning_rate": 0.0008238993710691824,
      "loss": 0.5115,
      "num_input_tokens_seen": 2060688,
      "step": 3145
    },
    {
      "epoch": 1.650943396226415,
      "grad_norm": 0.09795437008142471,
      "learning_rate": 0.00082520964360587,
      "loss": 0.454,
      "num_input_tokens_seen": 2064752,
      "step": 3150
    },
    {
      "epoch": 1.6535639412997902,
      "grad_norm": 0.10440020263195038,
      "learning_rate": 0.0008265199161425576,
      "loss": 0.4677,
      "num_input_tokens_seen": 2067280,
      "step": 3155
    },
    {
      "epoch": 1.6561844863731656,
      "grad_norm": 0.18991497159004211,
      "learning_rate": 0.0008278301886792453,
      "loss": 0.5612,
      "num_input_tokens_seen": 2070608,
      "step": 3160
    },
    {
      "epoch": 1.658805031446541,
      "grad_norm": 0.09960087388753891,
      "learning_rate": 0.0008291404612159329,
      "loss": 0.4713,
      "num_input_tokens_seen": 2074160,
      "step": 3165
    },
    {
      "epoch": 1.6614255765199162,
      "grad_norm": 0.09849994629621506,
      "learning_rate": 0.0008304507337526206,
      "loss": 0.4158,
      "num_input_tokens_seen": 2077168,
      "step": 3170
    },
    {
      "epoch": 1.6640461215932913,
      "grad_norm": 0.11242708563804626,
      "learning_rate": 0.0008317610062893081,
      "loss": 0.4627,
      "num_input_tokens_seen": 2080784,
      "step": 3175
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 0.16728422045707703,
      "learning_rate": 0.0008330712788259958,
      "loss": 0.5233,
      "num_input_tokens_seen": 2084400,
      "step": 3180
    },
    {
      "epoch": 1.669287211740042,
      "grad_norm": 0.08133294433355331,
      "learning_rate": 0.0008343815513626834,
      "loss": 0.5756,
      "num_input_tokens_seen": 2087632,
      "step": 3185
    },
    {
      "epoch": 1.6719077568134173,
      "grad_norm": 0.07925716787576675,
      "learning_rate": 0.000835691823899371,
      "loss": 0.5185,
      "num_input_tokens_seen": 2091280,
      "step": 3190
    },
    {
      "epoch": 1.6745283018867925,
      "grad_norm": 0.06765159964561462,
      "learning_rate": 0.0008370020964360588,
      "loss": 0.4539,
      "num_input_tokens_seen": 2094640,
      "step": 3195
    },
    {
      "epoch": 1.6771488469601676,
      "grad_norm": 0.09848585724830627,
      "learning_rate": 0.0008383123689727464,
      "loss": 0.672,
      "num_input_tokens_seen": 2098064,
      "step": 3200
    },
    {
      "epoch": 1.679769392033543,
      "grad_norm": 0.09847615659236908,
      "learning_rate": 0.000839622641509434,
      "loss": 0.5153,
      "num_input_tokens_seen": 2102064,
      "step": 3205
    },
    {
      "epoch": 1.6823899371069182,
      "grad_norm": 0.08163189142942429,
      "learning_rate": 0.0008409329140461216,
      "loss": 0.667,
      "num_input_tokens_seen": 2105296,
      "step": 3210
    },
    {
      "epoch": 1.6850104821802936,
      "grad_norm": 0.06331846117973328,
      "learning_rate": 0.0008422431865828093,
      "loss": 0.4531,
      "num_input_tokens_seen": 2108592,
      "step": 3215
    },
    {
      "epoch": 1.6876310272536688,
      "grad_norm": 0.07052133977413177,
      "learning_rate": 0.0008435534591194969,
      "loss": 0.3201,
      "num_input_tokens_seen": 2111632,
      "step": 3220
    },
    {
      "epoch": 1.690251572327044,
      "grad_norm": 0.059863701462745667,
      "learning_rate": 0.0008448637316561845,
      "loss": 0.7129,
      "num_input_tokens_seen": 2115792,
      "step": 3225
    },
    {
      "epoch": 1.6928721174004193,
      "grad_norm": 0.08582159876823425,
      "learning_rate": 0.0008461740041928722,
      "loss": 0.3839,
      "num_input_tokens_seen": 2118832,
      "step": 3230
    },
    {
      "epoch": 1.6954926624737947,
      "grad_norm": 0.06396655738353729,
      "learning_rate": 0.0008474842767295598,
      "loss": 0.4809,
      "num_input_tokens_seen": 2122032,
      "step": 3235
    },
    {
      "epoch": 1.6981132075471699,
      "grad_norm": 0.11966006457805634,
      "learning_rate": 0.0008487945492662474,
      "loss": 0.4924,
      "num_input_tokens_seen": 2124400,
      "step": 3240
    },
    {
      "epoch": 1.700733752620545,
      "grad_norm": 0.11519259214401245,
      "learning_rate": 0.000850104821802935,
      "loss": 0.545,
      "num_input_tokens_seen": 2126928,
      "step": 3245
    },
    {
      "epoch": 1.7033542976939202,
      "grad_norm": 0.06497857719659805,
      "learning_rate": 0.0008514150943396226,
      "loss": 0.4281,
      "num_input_tokens_seen": 2130128,
      "step": 3250
    },
    {
      "epoch": 1.7059748427672956,
      "grad_norm": 0.058141078799963,
      "learning_rate": 0.0008527253668763103,
      "loss": 0.5166,
      "num_input_tokens_seen": 2133360,
      "step": 3255
    },
    {
      "epoch": 1.708595387840671,
      "grad_norm": 0.07953686267137527,
      "learning_rate": 0.0008540356394129979,
      "loss": 0.6202,
      "num_input_tokens_seen": 2136464,
      "step": 3260
    },
    {
      "epoch": 1.7112159329140462,
      "grad_norm": 0.04593174532055855,
      "learning_rate": 0.0008553459119496856,
      "loss": 0.6544,
      "num_input_tokens_seen": 2140080,
      "step": 3265
    },
    {
      "epoch": 1.7138364779874213,
      "grad_norm": 0.3156898021697998,
      "learning_rate": 0.0008566561844863731,
      "loss": 0.5808,
      "num_input_tokens_seen": 2142960,
      "step": 3270
    },
    {
      "epoch": 1.7164570230607965,
      "grad_norm": 0.07636477798223495,
      "learning_rate": 0.0008579664570230608,
      "loss": 0.5177,
      "num_input_tokens_seen": 2146224,
      "step": 3275
    },
    {
      "epoch": 1.719077568134172,
      "grad_norm": 0.09232097864151001,
      "learning_rate": 0.0008592767295597484,
      "loss": 0.4641,
      "num_input_tokens_seen": 2150992,
      "step": 3280
    },
    {
      "epoch": 1.7216981132075473,
      "grad_norm": 0.1003979742527008,
      "learning_rate": 0.000860587002096436,
      "loss": 0.6356,
      "num_input_tokens_seen": 2154448,
      "step": 3285
    },
    {
      "epoch": 1.7243186582809225,
      "grad_norm": 0.09501910954713821,
      "learning_rate": 0.0008618972746331238,
      "loss": 0.3536,
      "num_input_tokens_seen": 2156752,
      "step": 3290
    },
    {
      "epoch": 1.7269392033542976,
      "grad_norm": 0.09502001851797104,
      "learning_rate": 0.0008632075471698114,
      "loss": 0.5919,
      "num_input_tokens_seen": 2159568,
      "step": 3295
    },
    {
      "epoch": 1.7295597484276728,
      "grad_norm": 0.12043496966362,
      "learning_rate": 0.000864517819706499,
      "loss": 0.5125,
      "num_input_tokens_seen": 2162736,
      "step": 3300
    },
    {
      "epoch": 1.7321802935010482,
      "grad_norm": 0.04716014117002487,
      "learning_rate": 0.0008658280922431866,
      "loss": 0.5689,
      "num_input_tokens_seen": 2166288,
      "step": 3305
    },
    {
      "epoch": 1.7348008385744236,
      "grad_norm": 0.10465690493583679,
      "learning_rate": 0.0008671383647798742,
      "loss": 0.5066,
      "num_input_tokens_seen": 2169584,
      "step": 3310
    },
    {
      "epoch": 1.7374213836477987,
      "grad_norm": 0.09449630230665207,
      "learning_rate": 0.0008684486373165619,
      "loss": 0.5055,
      "num_input_tokens_seen": 2172560,
      "step": 3315
    },
    {
      "epoch": 1.740041928721174,
      "grad_norm": 0.25385722517967224,
      "learning_rate": 0.0008697589098532495,
      "loss": 0.4514,
      "num_input_tokens_seen": 2175600,
      "step": 3320
    },
    {
      "epoch": 1.7426624737945493,
      "grad_norm": 0.08799369633197784,
      "learning_rate": 0.0008710691823899372,
      "loss": 0.4731,
      "num_input_tokens_seen": 2178800,
      "step": 3325
    },
    {
      "epoch": 1.7452830188679245,
      "grad_norm": 0.05934632197022438,
      "learning_rate": 0.0008723794549266247,
      "loss": 0.4605,
      "num_input_tokens_seen": 2181744,
      "step": 3330
    },
    {
      "epoch": 1.7479035639412999,
      "grad_norm": 0.07352855801582336,
      "learning_rate": 0.0008736897274633124,
      "loss": 0.4613,
      "num_input_tokens_seen": 2184720,
      "step": 3335
    },
    {
      "epoch": 1.750524109014675,
      "grad_norm": 0.1488015204668045,
      "learning_rate": 0.000875,
      "loss": 0.4855,
      "num_input_tokens_seen": 2186992,
      "step": 3340
    },
    {
      "epoch": 1.7531446540880502,
      "grad_norm": 0.08306916803121567,
      "learning_rate": 0.0008763102725366876,
      "loss": 0.4467,
      "num_input_tokens_seen": 2190192,
      "step": 3345
    },
    {
      "epoch": 1.7557651991614256,
      "grad_norm": 0.07751072198152542,
      "learning_rate": 0.0008776205450733753,
      "loss": 0.4081,
      "num_input_tokens_seen": 2193488,
      "step": 3350
    },
    {
      "epoch": 1.758385744234801,
      "grad_norm": 0.11811605095863342,
      "learning_rate": 0.0008789308176100629,
      "loss": 0.4523,
      "num_input_tokens_seen": 2196528,
      "step": 3355
    },
    {
      "epoch": 1.7610062893081762,
      "grad_norm": 0.09428617358207703,
      "learning_rate": 0.0008802410901467506,
      "loss": 0.3632,
      "num_input_tokens_seen": 2202224,
      "step": 3360
    },
    {
      "epoch": 1.7636268343815513,
      "grad_norm": 0.03543362393975258,
      "learning_rate": 0.0008815513626834381,
      "loss": 0.3937,
      "num_input_tokens_seen": 2206160,
      "step": 3365
    },
    {
      "epoch": 1.7662473794549265,
      "grad_norm": 0.08497540652751923,
      "learning_rate": 0.0008828616352201258,
      "loss": 0.4409,
      "num_input_tokens_seen": 2209296,
      "step": 3370
    },
    {
      "epoch": 1.7688679245283019,
      "grad_norm": 0.0876600369811058,
      "learning_rate": 0.0008841719077568134,
      "loss": 0.4732,
      "num_input_tokens_seen": 2212368,
      "step": 3375
    },
    {
      "epoch": 1.7714884696016773,
      "grad_norm": 0.10470177978277206,
      "learning_rate": 0.000885482180293501,
      "loss": 0.512,
      "num_input_tokens_seen": 2215760,
      "step": 3380
    },
    {
      "epoch": 1.7741090146750524,
      "grad_norm": 0.07400569319725037,
      "learning_rate": 0.0008867924528301887,
      "loss": 0.5792,
      "num_input_tokens_seen": 2219312,
      "step": 3385
    },
    {
      "epoch": 1.7767295597484276,
      "grad_norm": 0.09729129076004028,
      "learning_rate": 0.0008881027253668763,
      "loss": 0.3023,
      "num_input_tokens_seen": 2221712,
      "step": 3390
    },
    {
      "epoch": 1.7793501048218028,
      "grad_norm": 0.07051032036542892,
      "learning_rate": 0.000889412997903564,
      "loss": 0.5653,
      "num_input_tokens_seen": 2224816,
      "step": 3395
    },
    {
      "epoch": 1.7819706498951782,
      "grad_norm": 0.06488945335149765,
      "learning_rate": 0.0008907232704402516,
      "loss": 0.4079,
      "num_input_tokens_seen": 2228464,
      "step": 3400
    },
    {
      "epoch": 1.7845911949685536,
      "grad_norm": 0.13529567420482635,
      "learning_rate": 0.0008920335429769392,
      "loss": 0.5244,
      "num_input_tokens_seen": 2232592,
      "step": 3405
    },
    {
      "epoch": 1.7872117400419287,
      "grad_norm": 0.07905071973800659,
      "learning_rate": 0.0008933438155136269,
      "loss": 0.4742,
      "num_input_tokens_seen": 2235728,
      "step": 3410
    },
    {
      "epoch": 1.789832285115304,
      "grad_norm": 0.1026928499341011,
      "learning_rate": 0.0008946540880503145,
      "loss": 0.3343,
      "num_input_tokens_seen": 2239216,
      "step": 3415
    },
    {
      "epoch": 1.7924528301886793,
      "grad_norm": 0.08730475604534149,
      "learning_rate": 0.0008959643605870022,
      "loss": 0.4772,
      "num_input_tokens_seen": 2242256,
      "step": 3420
    },
    {
      "epoch": 1.7950733752620545,
      "grad_norm": 0.11964268237352371,
      "learning_rate": 0.0008972746331236897,
      "loss": 0.4721,
      "num_input_tokens_seen": 2245744,
      "step": 3425
    },
    {
      "epoch": 1.7976939203354299,
      "grad_norm": 0.09839177131652832,
      "learning_rate": 0.0008985849056603774,
      "loss": 0.5354,
      "num_input_tokens_seen": 2249808,
      "step": 3430
    },
    {
      "epoch": 1.800314465408805,
      "grad_norm": 0.08781670778989792,
      "learning_rate": 0.000899895178197065,
      "loss": 0.4633,
      "num_input_tokens_seen": 2252976,
      "step": 3435
    },
    {
      "epoch": 1.8029350104821802,
      "grad_norm": 0.11028408259153366,
      "learning_rate": 0.0009012054507337526,
      "loss": 0.4855,
      "num_input_tokens_seen": 2256368,
      "step": 3440
    },
    {
      "epoch": 1.8055555555555556,
      "grad_norm": 0.14043767750263214,
      "learning_rate": 0.0009025157232704403,
      "loss": 0.4578,
      "num_input_tokens_seen": 2259536,
      "step": 3445
    },
    {
      "epoch": 1.808176100628931,
      "grad_norm": 0.1155812218785286,
      "learning_rate": 0.0009038259958071279,
      "loss": 0.4748,
      "num_input_tokens_seen": 2262928,
      "step": 3450
    },
    {
      "epoch": 1.8107966457023061,
      "grad_norm": 0.25739866495132446,
      "learning_rate": 0.0009051362683438156,
      "loss": 0.8435,
      "num_input_tokens_seen": 2265520,
      "step": 3455
    },
    {
      "epoch": 1.8134171907756813,
      "grad_norm": 0.11148882657289505,
      "learning_rate": 0.0009064465408805031,
      "loss": 0.6956,
      "num_input_tokens_seen": 2268464,
      "step": 3460
    },
    {
      "epoch": 1.8160377358490565,
      "grad_norm": 0.07528273016214371,
      "learning_rate": 0.0009077568134171907,
      "loss": 0.5187,
      "num_input_tokens_seen": 2271504,
      "step": 3465
    },
    {
      "epoch": 1.8186582809224319,
      "grad_norm": 0.1337394416332245,
      "learning_rate": 0.0009090670859538784,
      "loss": 0.4645,
      "num_input_tokens_seen": 2274384,
      "step": 3470
    },
    {
      "epoch": 1.8212788259958073,
      "grad_norm": 0.04858558624982834,
      "learning_rate": 0.000910377358490566,
      "loss": 0.3715,
      "num_input_tokens_seen": 2277648,
      "step": 3475
    },
    {
      "epoch": 1.8238993710691824,
      "grad_norm": 0.20065797865390778,
      "learning_rate": 0.0009116876310272537,
      "loss": 0.6216,
      "num_input_tokens_seen": 2280528,
      "step": 3480
    },
    {
      "epoch": 1.8265199161425576,
      "grad_norm": 0.04576095938682556,
      "learning_rate": 0.0009129979035639413,
      "loss": 0.5159,
      "num_input_tokens_seen": 2283792,
      "step": 3485
    },
    {
      "epoch": 1.8291404612159328,
      "grad_norm": 0.10015758126974106,
      "learning_rate": 0.000914308176100629,
      "loss": 0.5703,
      "num_input_tokens_seen": 2286832,
      "step": 3490
    },
    {
      "epoch": 1.8317610062893082,
      "grad_norm": 0.08283694833517075,
      "learning_rate": 0.0009156184486373166,
      "loss": 0.4217,
      "num_input_tokens_seen": 2291312,
      "step": 3495
    },
    {
      "epoch": 1.8343815513626835,
      "grad_norm": 0.1706220656633377,
      "learning_rate": 0.0009169287211740042,
      "loss": 0.451,
      "num_input_tokens_seen": 2294384,
      "step": 3500
    },
    {
      "epoch": 1.8370020964360587,
      "grad_norm": 0.0724976509809494,
      "learning_rate": 0.0009182389937106919,
      "loss": 0.5899,
      "num_input_tokens_seen": 2297232,
      "step": 3505
    },
    {
      "epoch": 1.8396226415094339,
      "grad_norm": 0.06714773178100586,
      "learning_rate": 0.0009195492662473795,
      "loss": 0.5026,
      "num_input_tokens_seen": 2300560,
      "step": 3510
    },
    {
      "epoch": 1.8422431865828093,
      "grad_norm": 0.12689316272735596,
      "learning_rate": 0.0009208595387840672,
      "loss": 0.3182,
      "num_input_tokens_seen": 2303312,
      "step": 3515
    },
    {
      "epoch": 1.8448637316561844,
      "grad_norm": 0.08378162235021591,
      "learning_rate": 0.0009221698113207547,
      "loss": 0.5476,
      "num_input_tokens_seen": 2306096,
      "step": 3520
    },
    {
      "epoch": 1.8474842767295598,
      "grad_norm": 0.0985872745513916,
      "learning_rate": 0.0009234800838574424,
      "loss": 0.5347,
      "num_input_tokens_seen": 2310096,
      "step": 3525
    },
    {
      "epoch": 1.850104821802935,
      "grad_norm": 0.08580230176448822,
      "learning_rate": 0.00092479035639413,
      "loss": 0.4529,
      "num_input_tokens_seen": 2313072,
      "step": 3530
    },
    {
      "epoch": 1.8527253668763102,
      "grad_norm": 0.06095229089260101,
      "learning_rate": 0.0009261006289308176,
      "loss": 0.4657,
      "num_input_tokens_seen": 2316304,
      "step": 3535
    },
    {
      "epoch": 1.8553459119496856,
      "grad_norm": 0.09593286365270615,
      "learning_rate": 0.0009274109014675053,
      "loss": 0.4891,
      "num_input_tokens_seen": 2318832,
      "step": 3540
    },
    {
      "epoch": 1.857966457023061,
      "grad_norm": 0.10570638626813889,
      "learning_rate": 0.0009287211740041929,
      "loss": 0.5135,
      "num_input_tokens_seen": 2321840,
      "step": 3545
    },
    {
      "epoch": 1.8605870020964361,
      "grad_norm": 0.09061051905155182,
      "learning_rate": 0.0009300314465408806,
      "loss": 0.5699,
      "num_input_tokens_seen": 2324400,
      "step": 3550
    },
    {
      "epoch": 1.8632075471698113,
      "grad_norm": 0.08066479861736298,
      "learning_rate": 0.0009313417190775681,
      "loss": 0.4614,
      "num_input_tokens_seen": 2327376,
      "step": 3555
    },
    {
      "epoch": 1.8658280922431865,
      "grad_norm": 0.04102037847042084,
      "learning_rate": 0.0009326519916142557,
      "loss": 0.4258,
      "num_input_tokens_seen": 2330832,
      "step": 3560
    },
    {
      "epoch": 1.8684486373165619,
      "grad_norm": 0.07767961174249649,
      "learning_rate": 0.0009339622641509434,
      "loss": 0.5088,
      "num_input_tokens_seen": 2335376,
      "step": 3565
    },
    {
      "epoch": 1.8710691823899372,
      "grad_norm": 0.08631724119186401,
      "learning_rate": 0.000935272536687631,
      "loss": 0.524,
      "num_input_tokens_seen": 2338128,
      "step": 3570
    },
    {
      "epoch": 1.8736897274633124,
      "grad_norm": 0.07110133767127991,
      "learning_rate": 0.0009365828092243187,
      "loss": 0.3842,
      "num_input_tokens_seen": 2341552,
      "step": 3575
    },
    {
      "epoch": 1.8763102725366876,
      "grad_norm": 0.14267612993717194,
      "learning_rate": 0.0009378930817610063,
      "loss": 0.5411,
      "num_input_tokens_seen": 2344304,
      "step": 3580
    },
    {
      "epoch": 1.8789308176100628,
      "grad_norm": 0.07762152701616287,
      "learning_rate": 0.0009392033542976939,
      "loss": 0.314,
      "num_input_tokens_seen": 2347216,
      "step": 3585
    },
    {
      "epoch": 1.8815513626834381,
      "grad_norm": 0.06775832921266556,
      "learning_rate": 0.0009405136268343816,
      "loss": 0.5134,
      "num_input_tokens_seen": 2350640,
      "step": 3590
    },
    {
      "epoch": 1.8841719077568135,
      "grad_norm": 0.07166460901498795,
      "learning_rate": 0.0009418238993710692,
      "loss": 0.4896,
      "num_input_tokens_seen": 2354224,
      "step": 3595
    },
    {
      "epoch": 1.8867924528301887,
      "grad_norm": 0.08387069404125214,
      "learning_rate": 0.0009431341719077569,
      "loss": 0.5221,
      "num_input_tokens_seen": 2356688,
      "step": 3600
    },
    {
      "epoch": 1.8894129979035639,
      "grad_norm": 0.10337600857019424,
      "learning_rate": 0.0009444444444444445,
      "loss": 0.4906,
      "num_input_tokens_seen": 2359568,
      "step": 3605
    },
    {
      "epoch": 1.892033542976939,
      "grad_norm": 0.08176080882549286,
      "learning_rate": 0.0009457547169811322,
      "loss": 0.5681,
      "num_input_tokens_seen": 2363280,
      "step": 3610
    },
    {
      "epoch": 1.8946540880503144,
      "grad_norm": 0.1032397523522377,
      "learning_rate": 0.0009470649895178197,
      "loss": 0.5434,
      "num_input_tokens_seen": 2366480,
      "step": 3615
    },
    {
      "epoch": 1.8972746331236898,
      "grad_norm": 0.0895196720957756,
      "learning_rate": 0.0009483752620545073,
      "loss": 0.6354,
      "num_input_tokens_seen": 2369200,
      "step": 3620
    },
    {
      "epoch": 1.899895178197065,
      "grad_norm": 0.05700533837080002,
      "learning_rate": 0.000949685534591195,
      "loss": 0.4399,
      "num_input_tokens_seen": 2373296,
      "step": 3625
    },
    {
      "epoch": 1.9025157232704402,
      "grad_norm": 0.0776708796620369,
      "learning_rate": 0.0009509958071278826,
      "loss": 0.5058,
      "num_input_tokens_seen": 2376432,
      "step": 3630
    },
    {
      "epoch": 1.9051362683438156,
      "grad_norm": 0.10376863926649094,
      "learning_rate": 0.0009523060796645703,
      "loss": 0.4505,
      "num_input_tokens_seen": 2379344,
      "step": 3635
    },
    {
      "epoch": 1.9077568134171907,
      "grad_norm": 0.057364143431186676,
      "learning_rate": 0.0009536163522012579,
      "loss": 0.5718,
      "num_input_tokens_seen": 2382960,
      "step": 3640
    },
    {
      "epoch": 1.9103773584905661,
      "grad_norm": 0.08848889172077179,
      "learning_rate": 0.0009549266247379456,
      "loss": 0.4502,
      "num_input_tokens_seen": 2386064,
      "step": 3645
    },
    {
      "epoch": 1.9129979035639413,
      "grad_norm": 0.07886257767677307,
      "learning_rate": 0.0009562368972746331,
      "loss": 0.4874,
      "num_input_tokens_seen": 2390384,
      "step": 3650
    },
    {
      "epoch": 1.9156184486373165,
      "grad_norm": 0.07859694212675095,
      "learning_rate": 0.0009575471698113207,
      "loss": 0.5508,
      "num_input_tokens_seen": 2394384,
      "step": 3655
    },
    {
      "epoch": 1.9182389937106918,
      "grad_norm": 0.1935291439294815,
      "learning_rate": 0.0009588574423480084,
      "loss": 0.4782,
      "num_input_tokens_seen": 2397584,
      "step": 3660
    },
    {
      "epoch": 1.9208595387840672,
      "grad_norm": 0.11715593189001083,
      "learning_rate": 0.000960167714884696,
      "loss": 0.5349,
      "num_input_tokens_seen": 2400560,
      "step": 3665
    },
    {
      "epoch": 1.9234800838574424,
      "grad_norm": 0.09769844263792038,
      "learning_rate": 0.0009614779874213837,
      "loss": 0.5138,
      "num_input_tokens_seen": 2403280,
      "step": 3670
    },
    {
      "epoch": 1.9261006289308176,
      "grad_norm": 0.1817241907119751,
      "learning_rate": 0.0009627882599580712,
      "loss": 0.593,
      "num_input_tokens_seen": 2406192,
      "step": 3675
    },
    {
      "epoch": 1.9287211740041927,
      "grad_norm": 0.15125495195388794,
      "learning_rate": 0.0009640985324947589,
      "loss": 0.4717,
      "num_input_tokens_seen": 2409584,
      "step": 3680
    },
    {
      "epoch": 1.9313417190775681,
      "grad_norm": 0.12849180400371552,
      "learning_rate": 0.0009654088050314465,
      "loss": 0.485,
      "num_input_tokens_seen": 2412400,
      "step": 3685
    },
    {
      "epoch": 1.9339622641509435,
      "grad_norm": 0.28689122200012207,
      "learning_rate": 0.0009667190775681342,
      "loss": 0.4339,
      "num_input_tokens_seen": 2415504,
      "step": 3690
    },
    {
      "epoch": 1.9365828092243187,
      "grad_norm": 0.06379726529121399,
      "learning_rate": 0.0009680293501048219,
      "loss": 0.5092,
      "num_input_tokens_seen": 2418256,
      "step": 3695
    },
    {
      "epoch": 1.9392033542976939,
      "grad_norm": 0.1238022893667221,
      "learning_rate": 0.0009693396226415095,
      "loss": 0.4395,
      "num_input_tokens_seen": 2421776,
      "step": 3700
    },
    {
      "epoch": 1.941823899371069,
      "grad_norm": 0.10054994374513626,
      "learning_rate": 0.0009706498951781972,
      "loss": 0.6362,
      "num_input_tokens_seen": 2425808,
      "step": 3705
    },
    {
      "epoch": 1.9444444444444444,
      "grad_norm": 0.06784513592720032,
      "learning_rate": 0.0009719601677148847,
      "loss": 0.3665,
      "num_input_tokens_seen": 2428880,
      "step": 3710
    },
    {
      "epoch": 1.9470649895178198,
      "grad_norm": 0.08275411278009415,
      "learning_rate": 0.0009732704402515723,
      "loss": 0.5043,
      "num_input_tokens_seen": 2432112,
      "step": 3715
    },
    {
      "epoch": 1.949685534591195,
      "grad_norm": 0.1047595962882042,
      "learning_rate": 0.00097458071278826,
      "loss": 0.4054,
      "num_input_tokens_seen": 2435120,
      "step": 3720
    },
    {
      "epoch": 1.9523060796645701,
      "grad_norm": 0.09458722174167633,
      "learning_rate": 0.0009758909853249476,
      "loss": 0.543,
      "num_input_tokens_seen": 2437392,
      "step": 3725
    },
    {
      "epoch": 1.9549266247379455,
      "grad_norm": 0.0800524353981018,
      "learning_rate": 0.0009772012578616353,
      "loss": 0.4609,
      "num_input_tokens_seen": 2439920,
      "step": 3730
    },
    {
      "epoch": 1.9575471698113207,
      "grad_norm": 0.05469651520252228,
      "learning_rate": 0.0009785115303983228,
      "loss": 0.3823,
      "num_input_tokens_seen": 2443536,
      "step": 3735
    },
    {
      "epoch": 1.960167714884696,
      "grad_norm": 0.09822865575551987,
      "learning_rate": 0.0009798218029350107,
      "loss": 0.5039,
      "num_input_tokens_seen": 2446096,
      "step": 3740
    },
    {
      "epoch": 1.9627882599580713,
      "grad_norm": 0.10841121524572372,
      "learning_rate": 0.0009811320754716981,
      "loss": 0.5807,
      "num_input_tokens_seen": 2448976,
      "step": 3745
    },
    {
      "epoch": 1.9654088050314464,
      "grad_norm": 0.07277775555849075,
      "learning_rate": 0.0009824423480083858,
      "loss": 0.5858,
      "num_input_tokens_seen": 2451632,
      "step": 3750
    },
    {
      "epoch": 1.9680293501048218,
      "grad_norm": 0.0849124938249588,
      "learning_rate": 0.0009837526205450735,
      "loss": 0.6315,
      "num_input_tokens_seen": 2454928,
      "step": 3755
    },
    {
      "epoch": 1.9706498951781972,
      "grad_norm": 0.1308630108833313,
      "learning_rate": 0.000985062893081761,
      "loss": 0.5202,
      "num_input_tokens_seen": 2457232,
      "step": 3760
    },
    {
      "epoch": 1.9732704402515724,
      "grad_norm": 0.08954863995313644,
      "learning_rate": 0.0009863731656184487,
      "loss": 0.607,
      "num_input_tokens_seen": 2460176,
      "step": 3765
    },
    {
      "epoch": 1.9758909853249476,
      "grad_norm": 0.07701633125543594,
      "learning_rate": 0.0009876834381551364,
      "loss": 0.6108,
      "num_input_tokens_seen": 2464432,
      "step": 3770
    },
    {
      "epoch": 1.9785115303983227,
      "grad_norm": 0.08405055850744247,
      "learning_rate": 0.0009889937106918238,
      "loss": 0.5304,
      "num_input_tokens_seen": 2469136,
      "step": 3775
    },
    {
      "epoch": 1.9811320754716981,
      "grad_norm": 0.04280147701501846,
      "learning_rate": 0.0009903039832285115,
      "loss": 0.4446,
      "num_input_tokens_seen": 2472400,
      "step": 3780
    },
    {
      "epoch": 1.9837526205450735,
      "grad_norm": 0.07836179435253143,
      "learning_rate": 0.0009916142557651992,
      "loss": 0.443,
      "num_input_tokens_seen": 2477328,
      "step": 3785
    },
    {
      "epoch": 1.9863731656184487,
      "grad_norm": 0.08033012598752975,
      "learning_rate": 0.000992924528301887,
      "loss": 0.5267,
      "num_input_tokens_seen": 2480656,
      "step": 3790
    },
    {
      "epoch": 1.9889937106918238,
      "grad_norm": 0.09329260140657425,
      "learning_rate": 0.0009942348008385744,
      "loss": 0.4967,
      "num_input_tokens_seen": 2484816,
      "step": 3795
    },
    {
      "epoch": 1.991614255765199,
      "grad_norm": 0.03939029201865196,
      "learning_rate": 0.000995545073375262,
      "loss": 0.5418,
      "num_input_tokens_seen": 2488752,
      "step": 3800
    },
    {
      "epoch": 1.9942348008385744,
      "grad_norm": 0.0684724822640419,
      "learning_rate": 0.0009968553459119497,
      "loss": 0.4137,
      "num_input_tokens_seen": 2491952,
      "step": 3805
    },
    {
      "epoch": 1.9968553459119498,
      "grad_norm": 0.04922228306531906,
      "learning_rate": 0.0009981656184486372,
      "loss": 0.53,
      "num_input_tokens_seen": 2495248,
      "step": 3810
    },
    {
      "epoch": 1.999475890985325,
      "grad_norm": 0.06374714523553848,
      "learning_rate": 0.000999475890985325,
      "loss": 0.5393,
      "num_input_tokens_seen": 2497840,
      "step": 3815
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.46842920780181885,
      "eval_runtime": 13.3436,
      "eval_samples_per_second": 63.551,
      "eval_steps_per_second": 15.888,
      "num_input_tokens_seen": 2497936,
      "step": 3816
    },
    {
      "epoch": 2.0020964360587,
      "grad_norm": 0.03453290835022926,
      "learning_rate": 0.0009999999811730266,
      "loss": 0.3829,
      "num_input_tokens_seen": 2501104,
      "step": 3820
    },
    {
      "epoch": 2.0047169811320753,
      "grad_norm": 0.11399774253368378,
      "learning_rate": 0.000999999866119305,
      "loss": 0.5533,
      "num_input_tokens_seen": 2504624,
      "step": 3825
    },
    {
      "epoch": 2.007337526205451,
      "grad_norm": 0.08580391854047775,
      "learning_rate": 0.000999999646471316,
      "loss": 0.4864,
      "num_input_tokens_seen": 2507024,
      "step": 3830
    },
    {
      "epoch": 2.009958071278826,
      "grad_norm": 0.09464305639266968,
      "learning_rate": 0.0009999993222291053,
      "loss": 0.4749,
      "num_input_tokens_seen": 2509808,
      "step": 3835
    },
    {
      "epoch": 2.0125786163522013,
      "grad_norm": 0.09308160096406937,
      "learning_rate": 0.0009999988933927404,
      "loss": 0.4432,
      "num_input_tokens_seen": 2512944,
      "step": 3840
    },
    {
      "epoch": 2.0151991614255764,
      "grad_norm": 0.06609957665205002,
      "learning_rate": 0.0009999983599623115,
      "loss": 0.396,
      "num_input_tokens_seen": 2516496,
      "step": 3845
    },
    {
      "epoch": 2.0178197064989516,
      "grad_norm": 0.09740690141916275,
      "learning_rate": 0.0009999977219379299,
      "loss": 0.32,
      "num_input_tokens_seen": 2519664,
      "step": 3850
    },
    {
      "epoch": 2.020440251572327,
      "grad_norm": 0.08793096989393234,
      "learning_rate": 0.000999996979319729,
      "loss": 0.4019,
      "num_input_tokens_seen": 2522992,
      "step": 3855
    },
    {
      "epoch": 2.0230607966457024,
      "grad_norm": 0.07392717897891998,
      "learning_rate": 0.0009999961321078645,
      "loss": 0.5332,
      "num_input_tokens_seen": 2526416,
      "step": 3860
    },
    {
      "epoch": 2.0256813417190775,
      "grad_norm": 0.12787887454032898,
      "learning_rate": 0.0009999951803025134,
      "loss": 0.4172,
      "num_input_tokens_seen": 2529200,
      "step": 3865
    },
    {
      "epoch": 2.0283018867924527,
      "grad_norm": 0.09788915514945984,
      "learning_rate": 0.0009999941239038747,
      "loss": 0.5033,
      "num_input_tokens_seen": 2532336,
      "step": 3870
    },
    {
      "epoch": 2.030922431865828,
      "grad_norm": 0.07381748408079147,
      "learning_rate": 0.0009999929629121696,
      "loss": 0.5373,
      "num_input_tokens_seen": 2536784,
      "step": 3875
    },
    {
      "epoch": 2.0335429769392035,
      "grad_norm": 0.08152171224355698,
      "learning_rate": 0.000999991697327641,
      "loss": 0.4879,
      "num_input_tokens_seen": 2539824,
      "step": 3880
    },
    {
      "epoch": 2.0361635220125787,
      "grad_norm": 0.04999096691608429,
      "learning_rate": 0.0009999903271505535,
      "loss": 0.5417,
      "num_input_tokens_seen": 2543664,
      "step": 3885
    },
    {
      "epoch": 2.038784067085954,
      "grad_norm": 0.06967383623123169,
      "learning_rate": 0.0009999888523811935,
      "loss": 0.4738,
      "num_input_tokens_seen": 2547632,
      "step": 3890
    },
    {
      "epoch": 2.041404612159329,
      "grad_norm": 0.059302739799022675,
      "learning_rate": 0.00099998727301987,
      "loss": 0.5361,
      "num_input_tokens_seen": 2551312,
      "step": 3895
    },
    {
      "epoch": 2.0440251572327046,
      "grad_norm": 0.19033493101596832,
      "learning_rate": 0.000999985589066913,
      "loss": 0.5558,
      "num_input_tokens_seen": 2554640,
      "step": 3900
    },
    {
      "epoch": 2.04664570230608,
      "grad_norm": 0.09971553087234497,
      "learning_rate": 0.000999983800522675,
      "loss": 0.3567,
      "num_input_tokens_seen": 2557744,
      "step": 3905
    },
    {
      "epoch": 2.049266247379455,
      "grad_norm": 0.11086573451757431,
      "learning_rate": 0.00099998190738753,
      "loss": 0.4913,
      "num_input_tokens_seen": 2560816,
      "step": 3910
    },
    {
      "epoch": 2.05188679245283,
      "grad_norm": 0.13943400979042053,
      "learning_rate": 0.000999979909661874,
      "loss": 0.5661,
      "num_input_tokens_seen": 2563376,
      "step": 3915
    },
    {
      "epoch": 2.0545073375262053,
      "grad_norm": 0.09267517924308777,
      "learning_rate": 0.000999977807346125,
      "loss": 0.4518,
      "num_input_tokens_seen": 2566640,
      "step": 3920
    },
    {
      "epoch": 2.057127882599581,
      "grad_norm": 0.0485241673886776,
      "learning_rate": 0.000999975600440723,
      "loss": 0.4453,
      "num_input_tokens_seen": 2570000,
      "step": 3925
    },
    {
      "epoch": 2.059748427672956,
      "grad_norm": 0.06928566098213196,
      "learning_rate": 0.000999973288946129,
      "loss": 0.5213,
      "num_input_tokens_seen": 2572912,
      "step": 3930
    },
    {
      "epoch": 2.0623689727463312,
      "grad_norm": 0.07460415363311768,
      "learning_rate": 0.0009999708728628271,
      "loss": 0.4847,
      "num_input_tokens_seen": 2576208,
      "step": 3935
    },
    {
      "epoch": 2.0649895178197064,
      "grad_norm": 0.07437262684106827,
      "learning_rate": 0.0009999683521913227,
      "loss": 0.6048,
      "num_input_tokens_seen": 2580176,
      "step": 3940
    },
    {
      "epoch": 2.0676100628930816,
      "grad_norm": 0.1070486530661583,
      "learning_rate": 0.000999965726932143,
      "loss": 0.4262,
      "num_input_tokens_seen": 2583504,
      "step": 3945
    },
    {
      "epoch": 2.070230607966457,
      "grad_norm": 0.1992311030626297,
      "learning_rate": 0.0009999629970858371,
      "loss": 0.553,
      "num_input_tokens_seen": 2586928,
      "step": 3950
    },
    {
      "epoch": 2.0728511530398324,
      "grad_norm": 0.07626418769359589,
      "learning_rate": 0.000999960162652976,
      "loss": 0.5286,
      "num_input_tokens_seen": 2589808,
      "step": 3955
    },
    {
      "epoch": 2.0754716981132075,
      "grad_norm": 0.05623578652739525,
      "learning_rate": 0.0009999572236341527,
      "loss": 0.39,
      "num_input_tokens_seen": 2592720,
      "step": 3960
    },
    {
      "epoch": 2.0780922431865827,
      "grad_norm": 0.08867421746253967,
      "learning_rate": 0.000999954180029982,
      "loss": 0.5366,
      "num_input_tokens_seen": 2595056,
      "step": 3965
    },
    {
      "epoch": 2.080712788259958,
      "grad_norm": 0.11503804475069046,
      "learning_rate": 0.0009999510318411007,
      "loss": 0.3801,
      "num_input_tokens_seen": 2598256,
      "step": 3970
    },
    {
      "epoch": 2.0833333333333335,
      "grad_norm": 0.07676342129707336,
      "learning_rate": 0.0009999477790681673,
      "loss": 0.5647,
      "num_input_tokens_seen": 2602064,
      "step": 3975
    },
    {
      "epoch": 2.0859538784067087,
      "grad_norm": 0.06695574522018433,
      "learning_rate": 0.000999944421711862,
      "loss": 0.5494,
      "num_input_tokens_seen": 2605232,
      "step": 3980
    },
    {
      "epoch": 2.088574423480084,
      "grad_norm": 0.08993054181337357,
      "learning_rate": 0.0009999409597728876,
      "loss": 0.5625,
      "num_input_tokens_seen": 2608336,
      "step": 3985
    },
    {
      "epoch": 2.091194968553459,
      "grad_norm": 0.06588137894868851,
      "learning_rate": 0.0009999373932519679,
      "loss": 0.4295,
      "num_input_tokens_seen": 2611472,
      "step": 3990
    },
    {
      "epoch": 2.0938155136268346,
      "grad_norm": 0.05337454006075859,
      "learning_rate": 0.0009999337221498492,
      "loss": 0.446,
      "num_input_tokens_seen": 2614704,
      "step": 3995
    },
    {
      "epoch": 2.0964360587002098,
      "grad_norm": 0.061849456280469894,
      "learning_rate": 0.0009999299464672996,
      "loss": 0.46,
      "num_input_tokens_seen": 2617328,
      "step": 4000
    },
    {
      "epoch": 2.099056603773585,
      "grad_norm": 0.08034078031778336,
      "learning_rate": 0.0009999260662051084,
      "loss": 0.375,
      "num_input_tokens_seen": 2620656,
      "step": 4005
    },
    {
      "epoch": 2.10167714884696,
      "grad_norm": 0.16962069272994995,
      "learning_rate": 0.0009999220813640877,
      "loss": 0.5839,
      "num_input_tokens_seen": 2624464,
      "step": 4010
    },
    {
      "epoch": 2.1042976939203353,
      "grad_norm": 0.08369220793247223,
      "learning_rate": 0.000999917991945071,
      "loss": 0.3997,
      "num_input_tokens_seen": 2629296,
      "step": 4015
    },
    {
      "epoch": 2.106918238993711,
      "grad_norm": 0.09356752783060074,
      "learning_rate": 0.0009999137979489136,
      "loss": 0.4569,
      "num_input_tokens_seen": 2631792,
      "step": 4020
    },
    {
      "epoch": 2.109538784067086,
      "grad_norm": 0.06718413531780243,
      "learning_rate": 0.000999909499376493,
      "loss": 0.4039,
      "num_input_tokens_seen": 2635024,
      "step": 4025
    },
    {
      "epoch": 2.1121593291404612,
      "grad_norm": 0.050855040550231934,
      "learning_rate": 0.0009999050962287085,
      "loss": 0.4268,
      "num_input_tokens_seen": 2638800,
      "step": 4030
    },
    {
      "epoch": 2.1147798742138364,
      "grad_norm": 0.03432680293917656,
      "learning_rate": 0.0009999005885064811,
      "loss": 0.4057,
      "num_input_tokens_seen": 2642800,
      "step": 4035
    },
    {
      "epoch": 2.1174004192872116,
      "grad_norm": 0.09474927186965942,
      "learning_rate": 0.0009998959762107537,
      "loss": 0.4345,
      "num_input_tokens_seen": 2645104,
      "step": 4040
    },
    {
      "epoch": 2.120020964360587,
      "grad_norm": 0.10605129599571228,
      "learning_rate": 0.0009998912593424914,
      "loss": 0.4892,
      "num_input_tokens_seen": 2648144,
      "step": 4045
    },
    {
      "epoch": 2.1226415094339623,
      "grad_norm": 0.06566506624221802,
      "learning_rate": 0.0009998864379026804,
      "loss": 0.528,
      "num_input_tokens_seen": 2651152,
      "step": 4050
    },
    {
      "epoch": 2.1252620545073375,
      "grad_norm": 0.04690337926149368,
      "learning_rate": 0.00099988151189233,
      "loss": 0.4512,
      "num_input_tokens_seen": 2657232,
      "step": 4055
    },
    {
      "epoch": 2.1278825995807127,
      "grad_norm": 0.04423120245337486,
      "learning_rate": 0.00099987648131247,
      "loss": 0.3423,
      "num_input_tokens_seen": 2660112,
      "step": 4060
    },
    {
      "epoch": 2.130503144654088,
      "grad_norm": 0.14986738562583923,
      "learning_rate": 0.000999871346164153,
      "loss": 0.7413,
      "num_input_tokens_seen": 2664400,
      "step": 4065
    },
    {
      "epoch": 2.1331236897274635,
      "grad_norm": 0.07389523833990097,
      "learning_rate": 0.0009998661064484532,
      "loss": 0.5156,
      "num_input_tokens_seen": 2667632,
      "step": 4070
    },
    {
      "epoch": 2.1357442348008386,
      "grad_norm": 0.0716930478811264,
      "learning_rate": 0.0009998607621664666,
      "loss": 0.4508,
      "num_input_tokens_seen": 2671504,
      "step": 4075
    },
    {
      "epoch": 2.138364779874214,
      "grad_norm": 0.07210332155227661,
      "learning_rate": 0.0009998553133193113,
      "loss": 0.3984,
      "num_input_tokens_seen": 2674384,
      "step": 4080
    },
    {
      "epoch": 2.140985324947589,
      "grad_norm": 0.05934995412826538,
      "learning_rate": 0.0009998497599081272,
      "loss": 0.4808,
      "num_input_tokens_seen": 2677392,
      "step": 4085
    },
    {
      "epoch": 2.1436058700209646,
      "grad_norm": 0.08298336714506149,
      "learning_rate": 0.0009998441019340761,
      "loss": 0.5885,
      "num_input_tokens_seen": 2680240,
      "step": 4090
    },
    {
      "epoch": 2.1462264150943398,
      "grad_norm": 0.05911171808838844,
      "learning_rate": 0.000999838339398341,
      "loss": 0.4944,
      "num_input_tokens_seen": 2683888,
      "step": 4095
    },
    {
      "epoch": 2.148846960167715,
      "grad_norm": 0.10388824343681335,
      "learning_rate": 0.000999832472302128,
      "loss": 0.5215,
      "num_input_tokens_seen": 2686352,
      "step": 4100
    },
    {
      "epoch": 2.15146750524109,
      "grad_norm": 0.09228239953517914,
      "learning_rate": 0.0009998265006466642,
      "loss": 0.4889,
      "num_input_tokens_seen": 2688560,
      "step": 4105
    },
    {
      "epoch": 2.1540880503144653,
      "grad_norm": 0.16245250403881073,
      "learning_rate": 0.0009998204244331987,
      "loss": 0.4186,
      "num_input_tokens_seen": 2691056,
      "step": 4110
    },
    {
      "epoch": 2.156708595387841,
      "grad_norm": 0.067781463265419,
      "learning_rate": 0.0009998142436630027,
      "loss": 0.3971,
      "num_input_tokens_seen": 2694032,
      "step": 4115
    },
    {
      "epoch": 2.159329140461216,
      "grad_norm": 0.18423765897750854,
      "learning_rate": 0.0009998079583373692,
      "loss": 0.5504,
      "num_input_tokens_seen": 2696944,
      "step": 4120
    },
    {
      "epoch": 2.161949685534591,
      "grad_norm": 0.09920454770326614,
      "learning_rate": 0.0009998015684576128,
      "loss": 0.5608,
      "num_input_tokens_seen": 2699632,
      "step": 4125
    },
    {
      "epoch": 2.1645702306079664,
      "grad_norm": 0.06611345708370209,
      "learning_rate": 0.0009997950740250703,
      "loss": 0.4487,
      "num_input_tokens_seen": 2703312,
      "step": 4130
    },
    {
      "epoch": 2.1671907756813416,
      "grad_norm": 0.06759465485811234,
      "learning_rate": 0.0009997884750411004,
      "loss": 0.5131,
      "num_input_tokens_seen": 2706928,
      "step": 4135
    },
    {
      "epoch": 2.169811320754717,
      "grad_norm": 0.0789656788110733,
      "learning_rate": 0.0009997817715070832,
      "loss": 0.5998,
      "num_input_tokens_seen": 2710992,
      "step": 4140
    },
    {
      "epoch": 2.1724318658280923,
      "grad_norm": 0.053150203078985214,
      "learning_rate": 0.0009997749634244213,
      "loss": 0.4547,
      "num_input_tokens_seen": 2714544,
      "step": 4145
    },
    {
      "epoch": 2.1750524109014675,
      "grad_norm": 0.10654949396848679,
      "learning_rate": 0.000999768050794539,
      "loss": 0.5805,
      "num_input_tokens_seen": 2718064,
      "step": 4150
    },
    {
      "epoch": 2.1776729559748427,
      "grad_norm": 0.10568013787269592,
      "learning_rate": 0.0009997610336188818,
      "loss": 0.6221,
      "num_input_tokens_seen": 2721648,
      "step": 4155
    },
    {
      "epoch": 2.180293501048218,
      "grad_norm": 0.08574430644512177,
      "learning_rate": 0.0009997539118989183,
      "loss": 0.4662,
      "num_input_tokens_seen": 2725200,
      "step": 4160
    },
    {
      "epoch": 2.1829140461215935,
      "grad_norm": 0.06166277453303337,
      "learning_rate": 0.0009997466856361376,
      "loss": 0.4933,
      "num_input_tokens_seen": 2728432,
      "step": 4165
    },
    {
      "epoch": 2.1855345911949686,
      "grad_norm": 0.07929489761590958,
      "learning_rate": 0.000999739354832052,
      "loss": 0.4079,
      "num_input_tokens_seen": 2732688,
      "step": 4170
    },
    {
      "epoch": 2.188155136268344,
      "grad_norm": 0.08394651859998703,
      "learning_rate": 0.0009997319194881944,
      "loss": 0.5277,
      "num_input_tokens_seen": 2738448,
      "step": 4175
    },
    {
      "epoch": 2.190775681341719,
      "grad_norm": 0.1396031677722931,
      "learning_rate": 0.0009997243796061204,
      "loss": 0.4693,
      "num_input_tokens_seen": 2741552,
      "step": 4180
    },
    {
      "epoch": 2.1933962264150946,
      "grad_norm": 0.07064448297023773,
      "learning_rate": 0.0009997167351874076,
      "loss": 0.4615,
      "num_input_tokens_seen": 2744816,
      "step": 4185
    },
    {
      "epoch": 2.1960167714884697,
      "grad_norm": 0.10048893839120865,
      "learning_rate": 0.0009997089862336548,
      "loss": 0.5608,
      "num_input_tokens_seen": 2748912,
      "step": 4190
    },
    {
      "epoch": 2.198637316561845,
      "grad_norm": 0.1010870561003685,
      "learning_rate": 0.000999701132746483,
      "loss": 0.5276,
      "num_input_tokens_seen": 2752240,
      "step": 4195
    },
    {
      "epoch": 2.20125786163522,
      "grad_norm": 0.057345688343048096,
      "learning_rate": 0.0009996931747275352,
      "loss": 0.5238,
      "num_input_tokens_seen": 2755216,
      "step": 4200
    },
    {
      "epoch": 2.2038784067085953,
      "grad_norm": 0.08583741635084152,
      "learning_rate": 0.000999685112178476,
      "loss": 0.5719,
      "num_input_tokens_seen": 2758224,
      "step": 4205
    },
    {
      "epoch": 2.2064989517819704,
      "grad_norm": 0.04607686400413513,
      "learning_rate": 0.0009996769451009922,
      "loss": 0.6108,
      "num_input_tokens_seen": 2761680,
      "step": 4210
    },
    {
      "epoch": 2.209119496855346,
      "grad_norm": 0.078081876039505,
      "learning_rate": 0.000999668673496792,
      "loss": 0.5004,
      "num_input_tokens_seen": 2764464,
      "step": 4215
    },
    {
      "epoch": 2.211740041928721,
      "grad_norm": 0.06887157261371613,
      "learning_rate": 0.0009996602973676057,
      "loss": 0.4833,
      "num_input_tokens_seen": 2767600,
      "step": 4220
    },
    {
      "epoch": 2.2143605870020964,
      "grad_norm": 0.04939500242471695,
      "learning_rate": 0.0009996518167151858,
      "loss": 0.4757,
      "num_input_tokens_seen": 2770928,
      "step": 4225
    },
    {
      "epoch": 2.2169811320754715,
      "grad_norm": 0.06923111528158188,
      "learning_rate": 0.000999643231541306,
      "loss": 0.4516,
      "num_input_tokens_seen": 2774544,
      "step": 4230
    },
    {
      "epoch": 2.219601677148847,
      "grad_norm": 0.08564773201942444,
      "learning_rate": 0.0009996345418477625,
      "loss": 0.5337,
      "num_input_tokens_seen": 2777392,
      "step": 4235
    },
    {
      "epoch": 2.2222222222222223,
      "grad_norm": 0.05856233835220337,
      "learning_rate": 0.000999625747636373,
      "loss": 0.5414,
      "num_input_tokens_seen": 2780272,
      "step": 4240
    },
    {
      "epoch": 2.2248427672955975,
      "grad_norm": 0.08954425901174545,
      "learning_rate": 0.000999616848908977,
      "loss": 0.518,
      "num_input_tokens_seen": 2783824,
      "step": 4245
    },
    {
      "epoch": 2.2274633123689727,
      "grad_norm": 0.0827028825879097,
      "learning_rate": 0.0009996078456674363,
      "loss": 0.4488,
      "num_input_tokens_seen": 2786992,
      "step": 4250
    },
    {
      "epoch": 2.230083857442348,
      "grad_norm": 0.06079180911183357,
      "learning_rate": 0.000999598737913634,
      "loss": 0.3681,
      "num_input_tokens_seen": 2789840,
      "step": 4255
    },
    {
      "epoch": 2.2327044025157234,
      "grad_norm": 0.07432162761688232,
      "learning_rate": 0.0009995895256494755,
      "loss": 0.4688,
      "num_input_tokens_seen": 2792432,
      "step": 4260
    },
    {
      "epoch": 2.2353249475890986,
      "grad_norm": 0.09973888099193573,
      "learning_rate": 0.000999580208876888,
      "loss": 0.5817,
      "num_input_tokens_seen": 2795056,
      "step": 4265
    },
    {
      "epoch": 2.237945492662474,
      "grad_norm": 0.05772829055786133,
      "learning_rate": 0.0009995707875978198,
      "loss": 0.5165,
      "num_input_tokens_seen": 2798416,
      "step": 4270
    },
    {
      "epoch": 2.240566037735849,
      "grad_norm": 0.07620033621788025,
      "learning_rate": 0.0009995612618142428,
      "loss": 0.3869,
      "num_input_tokens_seen": 2801040,
      "step": 4275
    },
    {
      "epoch": 2.243186582809224,
      "grad_norm": 0.07734594494104385,
      "learning_rate": 0.000999551631528149,
      "loss": 0.4712,
      "num_input_tokens_seen": 2804880,
      "step": 4280
    },
    {
      "epoch": 2.2458071278825997,
      "grad_norm": 0.11339450627565384,
      "learning_rate": 0.000999541896741553,
      "loss": 0.4344,
      "num_input_tokens_seen": 2810864,
      "step": 4285
    },
    {
      "epoch": 2.248427672955975,
      "grad_norm": 0.153964564204216,
      "learning_rate": 0.0009995320574564912,
      "loss": 0.4815,
      "num_input_tokens_seen": 2813328,
      "step": 4290
    },
    {
      "epoch": 2.25104821802935,
      "grad_norm": 0.08498318493366241,
      "learning_rate": 0.000999522113675022,
      "loss": 0.5141,
      "num_input_tokens_seen": 2816016,
      "step": 4295
    },
    {
      "epoch": 2.2536687631027252,
      "grad_norm": 0.05775056406855583,
      "learning_rate": 0.0009995120653992255,
      "loss": 0.5997,
      "num_input_tokens_seen": 2818512,
      "step": 4300
    },
    {
      "epoch": 2.2562893081761004,
      "grad_norm": 0.04743625596165657,
      "learning_rate": 0.0009995019126312035,
      "loss": 0.5568,
      "num_input_tokens_seen": 2821776,
      "step": 4305
    },
    {
      "epoch": 2.258909853249476,
      "grad_norm": 0.09273887425661087,
      "learning_rate": 0.0009994916553730802,
      "loss": 0.4866,
      "num_input_tokens_seen": 2825232,
      "step": 4310
    },
    {
      "epoch": 2.261530398322851,
      "grad_norm": 0.12536825239658356,
      "learning_rate": 0.000999481293627001,
      "loss": 0.5545,
      "num_input_tokens_seen": 2828592,
      "step": 4315
    },
    {
      "epoch": 2.2641509433962264,
      "grad_norm": 0.07818346470594406,
      "learning_rate": 0.0009994708273951337,
      "loss": 0.5088,
      "num_input_tokens_seen": 2831472,
      "step": 4320
    },
    {
      "epoch": 2.2667714884696015,
      "grad_norm": 0.0642101913690567,
      "learning_rate": 0.0009994602566796673,
      "loss": 0.3629,
      "num_input_tokens_seen": 2834640,
      "step": 4325
    },
    {
      "epoch": 2.269392033542977,
      "grad_norm": 0.06918677687644958,
      "learning_rate": 0.0009994495814828136,
      "loss": 0.3598,
      "num_input_tokens_seen": 2838160,
      "step": 4330
    },
    {
      "epoch": 2.2720125786163523,
      "grad_norm": 0.08419378846883774,
      "learning_rate": 0.0009994388018068055,
      "loss": 0.332,
      "num_input_tokens_seen": 2842160,
      "step": 4335
    },
    {
      "epoch": 2.2746331236897275,
      "grad_norm": 0.08828726410865784,
      "learning_rate": 0.0009994279176538977,
      "loss": 0.407,
      "num_input_tokens_seen": 2845712,
      "step": 4340
    },
    {
      "epoch": 2.2772536687631026,
      "grad_norm": 0.06263956427574158,
      "learning_rate": 0.0009994169290263675,
      "loss": 0.4502,
      "num_input_tokens_seen": 2848976,
      "step": 4345
    },
    {
      "epoch": 2.279874213836478,
      "grad_norm": 0.09232297539710999,
      "learning_rate": 0.0009994058359265132,
      "loss": 0.4043,
      "num_input_tokens_seen": 2852304,
      "step": 4350
    },
    {
      "epoch": 2.2824947589098534,
      "grad_norm": 0.07223326712846756,
      "learning_rate": 0.0009993946383566558,
      "loss": 0.6576,
      "num_input_tokens_seen": 2855152,
      "step": 4355
    },
    {
      "epoch": 2.2851153039832286,
      "grad_norm": 0.07666783034801483,
      "learning_rate": 0.0009993833363191374,
      "loss": 0.5187,
      "num_input_tokens_seen": 2857968,
      "step": 4360
    },
    {
      "epoch": 2.2877358490566038,
      "grad_norm": 0.058285024017095566,
      "learning_rate": 0.0009993719298163222,
      "loss": 0.3978,
      "num_input_tokens_seen": 2862032,
      "step": 4365
    },
    {
      "epoch": 2.290356394129979,
      "grad_norm": 0.07661502063274384,
      "learning_rate": 0.0009993604188505965,
      "loss": 0.5202,
      "num_input_tokens_seen": 2864624,
      "step": 4370
    },
    {
      "epoch": 2.2929769392033545,
      "grad_norm": 0.06949032098054886,
      "learning_rate": 0.000999348803424368,
      "loss": 0.5337,
      "num_input_tokens_seen": 2868208,
      "step": 4375
    },
    {
      "epoch": 2.2955974842767297,
      "grad_norm": 0.06146376207470894,
      "learning_rate": 0.000999337083540067,
      "loss": 0.6576,
      "num_input_tokens_seen": 2871056,
      "step": 4380
    },
    {
      "epoch": 2.298218029350105,
      "grad_norm": 0.08731187134981155,
      "learning_rate": 0.0009993252592001448,
      "loss": 0.4999,
      "num_input_tokens_seen": 2873904,
      "step": 4385
    },
    {
      "epoch": 2.30083857442348,
      "grad_norm": 0.07203179597854614,
      "learning_rate": 0.0009993133304070747,
      "loss": 0.5096,
      "num_input_tokens_seen": 2877040,
      "step": 4390
    },
    {
      "epoch": 2.3034591194968552,
      "grad_norm": 0.0806451365351677,
      "learning_rate": 0.0009993012971633527,
      "loss": 0.5212,
      "num_input_tokens_seen": 2880560,
      "step": 4395
    },
    {
      "epoch": 2.3060796645702304,
      "grad_norm": 0.1371590495109558,
      "learning_rate": 0.0009992891594714952,
      "loss": 0.5023,
      "num_input_tokens_seen": 2883920,
      "step": 4400
    },
    {
      "epoch": 2.308700209643606,
      "grad_norm": 0.11360245198011398,
      "learning_rate": 0.0009992769173340422,
      "loss": 0.4518,
      "num_input_tokens_seen": 2886448,
      "step": 4405
    },
    {
      "epoch": 2.311320754716981,
      "grad_norm": 0.12356191128492355,
      "learning_rate": 0.000999264570753554,
      "loss": 0.4643,
      "num_input_tokens_seen": 2889520,
      "step": 4410
    },
    {
      "epoch": 2.3139412997903563,
      "grad_norm": 0.05187388136982918,
      "learning_rate": 0.0009992521197326135,
      "loss": 0.4897,
      "num_input_tokens_seen": 2893040,
      "step": 4415
    },
    {
      "epoch": 2.3165618448637315,
      "grad_norm": 0.039894454181194305,
      "learning_rate": 0.0009992395642738252,
      "loss": 0.3872,
      "num_input_tokens_seen": 2896880,
      "step": 4420
    },
    {
      "epoch": 2.319182389937107,
      "grad_norm": 0.06479325145483017,
      "learning_rate": 0.0009992269043798158,
      "loss": 0.4062,
      "num_input_tokens_seen": 2899600,
      "step": 4425
    },
    {
      "epoch": 2.3218029350104823,
      "grad_norm": 0.053566839545965195,
      "learning_rate": 0.0009992141400532336,
      "loss": 0.4228,
      "num_input_tokens_seen": 2902608,
      "step": 4430
    },
    {
      "epoch": 2.3244234800838575,
      "grad_norm": 0.04056196287274361,
      "learning_rate": 0.0009992012712967484,
      "loss": 0.5252,
      "num_input_tokens_seen": 2906224,
      "step": 4435
    },
    {
      "epoch": 2.3270440251572326,
      "grad_norm": 0.05481860041618347,
      "learning_rate": 0.0009991882981130525,
      "loss": 0.3981,
      "num_input_tokens_seen": 2909232,
      "step": 4440
    },
    {
      "epoch": 2.329664570230608,
      "grad_norm": 0.11819074302911758,
      "learning_rate": 0.0009991752205048597,
      "loss": 0.4715,
      "num_input_tokens_seen": 2916848,
      "step": 4445
    },
    {
      "epoch": 2.3322851153039834,
      "grad_norm": 0.03712764009833336,
      "learning_rate": 0.0009991620384749058,
      "loss": 0.546,
      "num_input_tokens_seen": 2920560,
      "step": 4450
    },
    {
      "epoch": 2.3349056603773586,
      "grad_norm": 0.07386904209852219,
      "learning_rate": 0.0009991487520259479,
      "loss": 0.5665,
      "num_input_tokens_seen": 2923408,
      "step": 4455
    },
    {
      "epoch": 2.3375262054507338,
      "grad_norm": 0.0564805306494236,
      "learning_rate": 0.000999135361160766,
      "loss": 0.4677,
      "num_input_tokens_seen": 2927280,
      "step": 4460
    },
    {
      "epoch": 2.340146750524109,
      "grad_norm": 0.08484181016683578,
      "learning_rate": 0.0009991218658821608,
      "loss": 0.677,
      "num_input_tokens_seen": 2930800,
      "step": 4465
    },
    {
      "epoch": 2.342767295597484,
      "grad_norm": 0.09700607508420944,
      "learning_rate": 0.0009991082661929556,
      "loss": 0.4536,
      "num_input_tokens_seen": 2934448,
      "step": 4470
    },
    {
      "epoch": 2.3453878406708597,
      "grad_norm": 0.08827964961528778,
      "learning_rate": 0.000999094562095995,
      "loss": 0.6502,
      "num_input_tokens_seen": 2937104,
      "step": 4475
    },
    {
      "epoch": 2.348008385744235,
      "grad_norm": 0.047707732766866684,
      "learning_rate": 0.0009990807535941461,
      "loss": 0.4774,
      "num_input_tokens_seen": 2940368,
      "step": 4480
    },
    {
      "epoch": 2.35062893081761,
      "grad_norm": 0.0991259440779686,
      "learning_rate": 0.0009990668406902976,
      "loss": 0.3971,
      "num_input_tokens_seen": 2942960,
      "step": 4485
    },
    {
      "epoch": 2.353249475890985,
      "grad_norm": 0.17508476972579956,
      "learning_rate": 0.0009990528233873594,
      "loss": 0.5279,
      "num_input_tokens_seen": 2946704,
      "step": 4490
    },
    {
      "epoch": 2.3558700209643604,
      "grad_norm": 0.1389269232749939,
      "learning_rate": 0.0009990387016882642,
      "loss": 0.385,
      "num_input_tokens_seen": 2950608,
      "step": 4495
    },
    {
      "epoch": 2.358490566037736,
      "grad_norm": 0.0632934495806694,
      "learning_rate": 0.000999024475595966,
      "loss": 0.4653,
      "num_input_tokens_seen": 2954416,
      "step": 4500
    },
    {
      "epoch": 2.361111111111111,
      "grad_norm": 0.053864993155002594,
      "learning_rate": 0.0009990101451134406,
      "loss": 0.5174,
      "num_input_tokens_seen": 2957424,
      "step": 4505
    },
    {
      "epoch": 2.3637316561844863,
      "grad_norm": 0.10888513177633286,
      "learning_rate": 0.0009989957102436858,
      "loss": 0.5023,
      "num_input_tokens_seen": 2960400,
      "step": 4510
    },
    {
      "epoch": 2.3663522012578615,
      "grad_norm": 0.08315885812044144,
      "learning_rate": 0.0009989811709897212,
      "loss": 0.5383,
      "num_input_tokens_seen": 2963568,
      "step": 4515
    },
    {
      "epoch": 2.368972746331237,
      "grad_norm": 0.07757224142551422,
      "learning_rate": 0.0009989665273545884,
      "loss": 0.6583,
      "num_input_tokens_seen": 2966384,
      "step": 4520
    },
    {
      "epoch": 2.3715932914046123,
      "grad_norm": 0.06559717655181885,
      "learning_rate": 0.0009989517793413507,
      "loss": 0.3411,
      "num_input_tokens_seen": 2969360,
      "step": 4525
    },
    {
      "epoch": 2.3742138364779874,
      "grad_norm": 0.09713568538427353,
      "learning_rate": 0.000998936926953093,
      "loss": 0.6835,
      "num_input_tokens_seen": 2972560,
      "step": 4530
    },
    {
      "epoch": 2.3768343815513626,
      "grad_norm": 0.08453140407800674,
      "learning_rate": 0.0009989219701929224,
      "loss": 0.6139,
      "num_input_tokens_seen": 2975472,
      "step": 4535
    },
    {
      "epoch": 2.379454926624738,
      "grad_norm": 0.10405968129634857,
      "learning_rate": 0.0009989069090639675,
      "loss": 0.5317,
      "num_input_tokens_seen": 2978288,
      "step": 4540
    },
    {
      "epoch": 2.3820754716981134,
      "grad_norm": 0.09390509873628616,
      "learning_rate": 0.0009988917435693793,
      "loss": 0.5708,
      "num_input_tokens_seen": 2981840,
      "step": 4545
    },
    {
      "epoch": 2.3846960167714886,
      "grad_norm": 0.09934904426336288,
      "learning_rate": 0.0009988764737123297,
      "loss": 0.5245,
      "num_input_tokens_seen": 2985104,
      "step": 4550
    },
    {
      "epoch": 2.3873165618448637,
      "grad_norm": 0.06238940358161926,
      "learning_rate": 0.0009988610994960134,
      "loss": 0.5259,
      "num_input_tokens_seen": 2989360,
      "step": 4555
    },
    {
      "epoch": 2.389937106918239,
      "grad_norm": 0.07940571755170822,
      "learning_rate": 0.0009988456209236464,
      "loss": 0.4746,
      "num_input_tokens_seen": 2993136,
      "step": 4560
    },
    {
      "epoch": 2.392557651991614,
      "grad_norm": 0.07592662423849106,
      "learning_rate": 0.0009988300379984668,
      "loss": 0.5382,
      "num_input_tokens_seen": 2996848,
      "step": 4565
    },
    {
      "epoch": 2.3951781970649897,
      "grad_norm": 0.08439662307500839,
      "learning_rate": 0.0009988143507237341,
      "loss": 0.519,
      "num_input_tokens_seen": 2999952,
      "step": 4570
    },
    {
      "epoch": 2.397798742138365,
      "grad_norm": 0.07557408511638641,
      "learning_rate": 0.00099879855910273,
      "loss": 0.568,
      "num_input_tokens_seen": 3002896,
      "step": 4575
    },
    {
      "epoch": 2.40041928721174,
      "grad_norm": 0.06096417084336281,
      "learning_rate": 0.0009987826631387578,
      "loss": 0.4866,
      "num_input_tokens_seen": 3005936,
      "step": 4580
    },
    {
      "epoch": 2.403039832285115,
      "grad_norm": 0.052720434963703156,
      "learning_rate": 0.000998766662835143,
      "loss": 0.4147,
      "num_input_tokens_seen": 3009488,
      "step": 4585
    },
    {
      "epoch": 2.4056603773584904,
      "grad_norm": 0.1012171134352684,
      "learning_rate": 0.0009987505581952325,
      "loss": 0.4107,
      "num_input_tokens_seen": 3012560,
      "step": 4590
    },
    {
      "epoch": 2.408280922431866,
      "grad_norm": 0.05915764719247818,
      "learning_rate": 0.0009987343492223954,
      "loss": 0.3569,
      "num_input_tokens_seen": 3015440,
      "step": 4595
    },
    {
      "epoch": 2.410901467505241,
      "grad_norm": 0.07854713499546051,
      "learning_rate": 0.0009987180359200222,
      "loss": 0.5934,
      "num_input_tokens_seen": 3019088,
      "step": 4600
    },
    {
      "epoch": 2.4135220125786163,
      "grad_norm": 0.15322954952716827,
      "learning_rate": 0.0009987016182915257,
      "loss": 0.4598,
      "num_input_tokens_seen": 3022384,
      "step": 4605
    },
    {
      "epoch": 2.4161425576519915,
      "grad_norm": 0.04823571443557739,
      "learning_rate": 0.0009986850963403398,
      "loss": 0.4119,
      "num_input_tokens_seen": 3026672,
      "step": 4610
    },
    {
      "epoch": 2.418763102725367,
      "grad_norm": 0.05891631543636322,
      "learning_rate": 0.0009986684700699214,
      "loss": 0.4948,
      "num_input_tokens_seen": 3029936,
      "step": 4615
    },
    {
      "epoch": 2.4213836477987423,
      "grad_norm": 0.06156688183546066,
      "learning_rate": 0.000998651739483748,
      "loss": 0.6425,
      "num_input_tokens_seen": 3032752,
      "step": 4620
    },
    {
      "epoch": 2.4240041928721174,
      "grad_norm": 0.08543428033590317,
      "learning_rate": 0.0009986349045853196,
      "loss": 0.5571,
      "num_input_tokens_seen": 3036400,
      "step": 4625
    },
    {
      "epoch": 2.4266247379454926,
      "grad_norm": 0.06931387633085251,
      "learning_rate": 0.000998617965378158,
      "loss": 0.5018,
      "num_input_tokens_seen": 3039152,
      "step": 4630
    },
    {
      "epoch": 2.4292452830188678,
      "grad_norm": 0.04207443445920944,
      "learning_rate": 0.0009986009218658064,
      "loss": 0.3978,
      "num_input_tokens_seen": 3042096,
      "step": 4635
    },
    {
      "epoch": 2.431865828092243,
      "grad_norm": 0.06522081792354584,
      "learning_rate": 0.0009985837740518306,
      "loss": 0.3256,
      "num_input_tokens_seen": 3045136,
      "step": 4640
    },
    {
      "epoch": 2.4344863731656186,
      "grad_norm": 0.13006308674812317,
      "learning_rate": 0.0009985665219398173,
      "loss": 0.4566,
      "num_input_tokens_seen": 3047344,
      "step": 4645
    },
    {
      "epoch": 2.4371069182389937,
      "grad_norm": 0.06042199209332466,
      "learning_rate": 0.0009985491655333755,
      "loss": 0.5056,
      "num_input_tokens_seen": 3049968,
      "step": 4650
    },
    {
      "epoch": 2.439727463312369,
      "grad_norm": 0.051883332431316376,
      "learning_rate": 0.000998531704836136,
      "loss": 0.562,
      "num_input_tokens_seen": 3052784,
      "step": 4655
    },
    {
      "epoch": 2.442348008385744,
      "grad_norm": 0.04128090664744377,
      "learning_rate": 0.0009985141398517513,
      "loss": 0.4651,
      "num_input_tokens_seen": 3056752,
      "step": 4660
    },
    {
      "epoch": 2.4449685534591197,
      "grad_norm": 0.06695161014795303,
      "learning_rate": 0.000998496470583896,
      "loss": 0.4505,
      "num_input_tokens_seen": 3059696,
      "step": 4665
    },
    {
      "epoch": 2.447589098532495,
      "grad_norm": 0.09606727957725525,
      "learning_rate": 0.0009984786970362663,
      "loss": 0.4391,
      "num_input_tokens_seen": 3062608,
      "step": 4670
    },
    {
      "epoch": 2.45020964360587,
      "grad_norm": 0.05224985629320145,
      "learning_rate": 0.00099846081921258,
      "loss": 0.4672,
      "num_input_tokens_seen": 3065712,
      "step": 4675
    },
    {
      "epoch": 2.452830188679245,
      "grad_norm": 0.03910031169652939,
      "learning_rate": 0.000998442837116577,
      "loss": 0.6136,
      "num_input_tokens_seen": 3069936,
      "step": 4680
    },
    {
      "epoch": 2.4554507337526204,
      "grad_norm": 0.054836127907037735,
      "learning_rate": 0.0009984247507520193,
      "loss": 0.446,
      "num_input_tokens_seen": 3073072,
      "step": 4685
    },
    {
      "epoch": 2.458071278825996,
      "grad_norm": 0.036303311586380005,
      "learning_rate": 0.0009984065601226896,
      "loss": 0.4873,
      "num_input_tokens_seen": 3076368,
      "step": 4690
    },
    {
      "epoch": 2.460691823899371,
      "grad_norm": 0.08929158002138138,
      "learning_rate": 0.0009983882652323942,
      "loss": 0.4831,
      "num_input_tokens_seen": 3079024,
      "step": 4695
    },
    {
      "epoch": 2.4633123689727463,
      "grad_norm": 0.047416362911462784,
      "learning_rate": 0.0009983698660849592,
      "loss": 0.4853,
      "num_input_tokens_seen": 3085616,
      "step": 4700
    },
    {
      "epoch": 2.4659329140461215,
      "grad_norm": 0.09679850935935974,
      "learning_rate": 0.0009983513626842342,
      "loss": 0.4351,
      "num_input_tokens_seen": 3088720,
      "step": 4705
    },
    {
      "epoch": 2.468553459119497,
      "grad_norm": 0.0789741650223732,
      "learning_rate": 0.0009983327550340893,
      "loss": 0.6074,
      "num_input_tokens_seen": 3091632,
      "step": 4710
    },
    {
      "epoch": 2.4711740041928723,
      "grad_norm": 0.0502433255314827,
      "learning_rate": 0.0009983140431384177,
      "loss": 0.4326,
      "num_input_tokens_seen": 3094960,
      "step": 4715
    },
    {
      "epoch": 2.4737945492662474,
      "grad_norm": 0.09007755666971207,
      "learning_rate": 0.0009982952270011331,
      "loss": 0.5151,
      "num_input_tokens_seen": 3097744,
      "step": 4720
    },
    {
      "epoch": 2.4764150943396226,
      "grad_norm": 0.06321209669113159,
      "learning_rate": 0.000998276306626172,
      "loss": 0.5133,
      "num_input_tokens_seen": 3100656,
      "step": 4725
    },
    {
      "epoch": 2.4790356394129978,
      "grad_norm": 0.0929170474410057,
      "learning_rate": 0.000998257282017492,
      "loss": 0.5315,
      "num_input_tokens_seen": 3103632,
      "step": 4730
    },
    {
      "epoch": 2.481656184486373,
      "grad_norm": 0.07382693886756897,
      "learning_rate": 0.0009982381531790732,
      "loss": 0.5742,
      "num_input_tokens_seen": 3107216,
      "step": 4735
    },
    {
      "epoch": 2.4842767295597485,
      "grad_norm": 0.12562064826488495,
      "learning_rate": 0.0009982189201149167,
      "loss": 0.6527,
      "num_input_tokens_seen": 3109680,
      "step": 4740
    },
    {
      "epoch": 2.4868972746331237,
      "grad_norm": 0.05852457135915756,
      "learning_rate": 0.0009981995828290465,
      "loss": 0.3761,
      "num_input_tokens_seen": 3112624,
      "step": 4745
    },
    {
      "epoch": 2.489517819706499,
      "grad_norm": 0.06945151835680008,
      "learning_rate": 0.0009981801413255068,
      "loss": 0.578,
      "num_input_tokens_seen": 3116048,
      "step": 4750
    },
    {
      "epoch": 2.492138364779874,
      "grad_norm": 0.11470769345760345,
      "learning_rate": 0.0009981605956083657,
      "loss": 0.5452,
      "num_input_tokens_seen": 3118864,
      "step": 4755
    },
    {
      "epoch": 2.4947589098532497,
      "grad_norm": 0.09584380686283112,
      "learning_rate": 0.000998140945681711,
      "loss": 0.5169,
      "num_input_tokens_seen": 3122192,
      "step": 4760
    },
    {
      "epoch": 2.497379454926625,
      "grad_norm": 0.09105075150728226,
      "learning_rate": 0.0009981211915496536,
      "loss": 0.3724,
      "num_input_tokens_seen": 3128016,
      "step": 4765
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.08695340901613235,
      "learning_rate": 0.0009981013332163256,
      "loss": 0.4356,
      "num_input_tokens_seen": 3130736,
      "step": 4770
    },
    {
      "epoch": 2.502620545073375,
      "grad_norm": 0.08457572013139725,
      "learning_rate": 0.0009980813706858816,
      "loss": 0.5101,
      "num_input_tokens_seen": 3133616,
      "step": 4775
    },
    {
      "epoch": 2.5052410901467503,
      "grad_norm": 0.15391786396503448,
      "learning_rate": 0.000998061303962497,
      "loss": 0.5814,
      "num_input_tokens_seen": 3136848,
      "step": 4780
    },
    {
      "epoch": 2.507861635220126,
      "grad_norm": 0.10470086336135864,
      "learning_rate": 0.00099804113305037,
      "loss": 0.485,
      "num_input_tokens_seen": 3139600,
      "step": 4785
    },
    {
      "epoch": 2.510482180293501,
      "grad_norm": 0.08479437977075577,
      "learning_rate": 0.0009980208579537199,
      "loss": 0.4978,
      "num_input_tokens_seen": 3142896,
      "step": 4790
    },
    {
      "epoch": 2.5131027253668763,
      "grad_norm": 0.05035081133246422,
      "learning_rate": 0.000998000478676788,
      "loss": 0.425,
      "num_input_tokens_seen": 3147248,
      "step": 4795
    },
    {
      "epoch": 2.5157232704402515,
      "grad_norm": 0.0647314190864563,
      "learning_rate": 0.0009979799952238373,
      "loss": 0.4627,
      "num_input_tokens_seen": 3150288,
      "step": 4800
    },
    {
      "epoch": 2.518343815513627,
      "grad_norm": 0.03657175973057747,
      "learning_rate": 0.000997959407599153,
      "loss": 0.4741,
      "num_input_tokens_seen": 3153808,
      "step": 4805
    },
    {
      "epoch": 2.5209643605870022,
      "grad_norm": 0.06228477135300636,
      "learning_rate": 0.000997938715807042,
      "loss": 0.5851,
      "num_input_tokens_seen": 3156784,
      "step": 4810
    },
    {
      "epoch": 2.5235849056603774,
      "grad_norm": 0.08166366815567017,
      "learning_rate": 0.000997917919851832,
      "loss": 0.5508,
      "num_input_tokens_seen": 3160176,
      "step": 4815
    },
    {
      "epoch": 2.5262054507337526,
      "grad_norm": 0.12736307084560394,
      "learning_rate": 0.0009978970197378736,
      "loss": 0.5794,
      "num_input_tokens_seen": 3162608,
      "step": 4820
    },
    {
      "epoch": 2.5288259958071277,
      "grad_norm": 0.05350921303033829,
      "learning_rate": 0.0009978760154695392,
      "loss": 0.543,
      "num_input_tokens_seen": 3166576,
      "step": 4825
    },
    {
      "epoch": 2.531446540880503,
      "grad_norm": 0.055138953030109406,
      "learning_rate": 0.0009978549070512226,
      "loss": 0.4503,
      "num_input_tokens_seen": 3169552,
      "step": 4830
    },
    {
      "epoch": 2.5340670859538785,
      "grad_norm": 0.03902130946516991,
      "learning_rate": 0.000997833694487339,
      "loss": 0.4815,
      "num_input_tokens_seen": 3173616,
      "step": 4835
    },
    {
      "epoch": 2.5366876310272537,
      "grad_norm": 0.055029574781656265,
      "learning_rate": 0.0009978123777823263,
      "loss": 0.4523,
      "num_input_tokens_seen": 3176816,
      "step": 4840
    },
    {
      "epoch": 2.539308176100629,
      "grad_norm": 0.04085157811641693,
      "learning_rate": 0.0009977909569406434,
      "loss": 0.4444,
      "num_input_tokens_seen": 3179824,
      "step": 4845
    },
    {
      "epoch": 2.541928721174004,
      "grad_norm": 0.0701897069811821,
      "learning_rate": 0.0009977694319667713,
      "loss": 0.3607,
      "num_input_tokens_seen": 3183056,
      "step": 4850
    },
    {
      "epoch": 2.5445492662473796,
      "grad_norm": 0.06401987373828888,
      "learning_rate": 0.0009977478028652131,
      "loss": 0.4454,
      "num_input_tokens_seen": 3187216,
      "step": 4855
    },
    {
      "epoch": 2.547169811320755,
      "grad_norm": 0.06436300277709961,
      "learning_rate": 0.000997726069640493,
      "loss": 0.4467,
      "num_input_tokens_seen": 3190576,
      "step": 4860
    },
    {
      "epoch": 2.54979035639413,
      "grad_norm": 0.053805749863386154,
      "learning_rate": 0.0009977042322971577,
      "loss": 0.5678,
      "num_input_tokens_seen": 3194000,
      "step": 4865
    },
    {
      "epoch": 2.552410901467505,
      "grad_norm": 0.05402064695954323,
      "learning_rate": 0.000997682290839775,
      "loss": 0.4114,
      "num_input_tokens_seen": 3197232,
      "step": 4870
    },
    {
      "epoch": 2.5550314465408803,
      "grad_norm": 0.08644220232963562,
      "learning_rate": 0.0009976602452729348,
      "loss": 0.4437,
      "num_input_tokens_seen": 3200592,
      "step": 4875
    },
    {
      "epoch": 2.5576519916142555,
      "grad_norm": 0.07994579523801804,
      "learning_rate": 0.000997638095601249,
      "loss": 0.6124,
      "num_input_tokens_seen": 3204240,
      "step": 4880
    },
    {
      "epoch": 2.560272536687631,
      "grad_norm": 0.06563348323106766,
      "learning_rate": 0.000997615841829351,
      "loss": 0.442,
      "num_input_tokens_seen": 3207216,
      "step": 4885
    },
    {
      "epoch": 2.5628930817610063,
      "grad_norm": 0.06487919390201569,
      "learning_rate": 0.000997593483961896,
      "loss": 0.5104,
      "num_input_tokens_seen": 3210096,
      "step": 4890
    },
    {
      "epoch": 2.5655136268343814,
      "grad_norm": 0.13380752503871918,
      "learning_rate": 0.0009975710220035607,
      "loss": 0.6328,
      "num_input_tokens_seen": 3213104,
      "step": 4895
    },
    {
      "epoch": 2.568134171907757,
      "grad_norm": 0.04814650118350983,
      "learning_rate": 0.0009975484559590444,
      "loss": 0.4597,
      "num_input_tokens_seen": 3216432,
      "step": 4900
    },
    {
      "epoch": 2.5707547169811322,
      "grad_norm": 0.053172286599874496,
      "learning_rate": 0.0009975257858330674,
      "loss": 0.535,
      "num_input_tokens_seen": 3219696,
      "step": 4905
    },
    {
      "epoch": 2.5733752620545074,
      "grad_norm": 0.054576195776462555,
      "learning_rate": 0.0009975030116303723,
      "loss": 0.5384,
      "num_input_tokens_seen": 3222448,
      "step": 4910
    },
    {
      "epoch": 2.5759958071278826,
      "grad_norm": 0.03224324434995651,
      "learning_rate": 0.0009974801333557228,
      "loss": 0.4679,
      "num_input_tokens_seen": 3226128,
      "step": 4915
    },
    {
      "epoch": 2.5786163522012577,
      "grad_norm": 0.12038295716047287,
      "learning_rate": 0.000997457151013905,
      "loss": 0.7205,
      "num_input_tokens_seen": 3229232,
      "step": 4920
    },
    {
      "epoch": 2.581236897274633,
      "grad_norm": 0.05572419986128807,
      "learning_rate": 0.0009974340646097264,
      "loss": 0.516,
      "num_input_tokens_seen": 3232048,
      "step": 4925
    },
    {
      "epoch": 2.5838574423480085,
      "grad_norm": 0.11151240020990372,
      "learning_rate": 0.0009974108741480166,
      "loss": 0.655,
      "num_input_tokens_seen": 3235120,
      "step": 4930
    },
    {
      "epoch": 2.5864779874213837,
      "grad_norm": 0.1319720447063446,
      "learning_rate": 0.0009973875796336267,
      "loss": 0.47,
      "num_input_tokens_seen": 3238224,
      "step": 4935
    },
    {
      "epoch": 2.589098532494759,
      "grad_norm": 0.08309637010097504,
      "learning_rate": 0.0009973641810714295,
      "loss": 0.5291,
      "num_input_tokens_seen": 3241744,
      "step": 4940
    },
    {
      "epoch": 2.591719077568134,
      "grad_norm": 0.11562544852495193,
      "learning_rate": 0.00099734067846632,
      "loss": 0.5413,
      "num_input_tokens_seen": 3244528,
      "step": 4945
    },
    {
      "epoch": 2.5943396226415096,
      "grad_norm": 0.09377223253250122,
      "learning_rate": 0.0009973170718232144,
      "loss": 0.5471,
      "num_input_tokens_seen": 3247952,
      "step": 4950
    },
    {
      "epoch": 2.596960167714885,
      "grad_norm": 0.04640742763876915,
      "learning_rate": 0.000997293361147051,
      "loss": 0.5795,
      "num_input_tokens_seen": 3251120,
      "step": 4955
    },
    {
      "epoch": 2.59958071278826,
      "grad_norm": 0.09199946373701096,
      "learning_rate": 0.0009972695464427904,
      "loss": 0.6385,
      "num_input_tokens_seen": 3255408,
      "step": 4960
    },
    {
      "epoch": 2.602201257861635,
      "grad_norm": 0.05443071573972702,
      "learning_rate": 0.0009972456277154134,
      "loss": 0.4797,
      "num_input_tokens_seen": 3258832,
      "step": 4965
    },
    {
      "epoch": 2.6048218029350103,
      "grad_norm": 0.10346367210149765,
      "learning_rate": 0.000997221604969924,
      "loss": 0.5015,
      "num_input_tokens_seen": 3261072,
      "step": 4970
    },
    {
      "epoch": 2.6074423480083855,
      "grad_norm": 0.11336196959018707,
      "learning_rate": 0.0009971974782113475,
      "loss": 0.5877,
      "num_input_tokens_seen": 3263760,
      "step": 4975
    },
    {
      "epoch": 2.610062893081761,
      "grad_norm": 0.10093105584383011,
      "learning_rate": 0.0009971732474447308,
      "loss": 0.556,
      "num_input_tokens_seen": 3266192,
      "step": 4980
    },
    {
      "epoch": 2.6126834381551363,
      "grad_norm": 0.12037209421396255,
      "learning_rate": 0.0009971489126751427,
      "loss": 0.4731,
      "num_input_tokens_seen": 3268656,
      "step": 4985
    },
    {
      "epoch": 2.6153039832285114,
      "grad_norm": 0.07187359780073166,
      "learning_rate": 0.0009971244739076742,
      "loss": 0.5114,
      "num_input_tokens_seen": 3272112,
      "step": 4990
    },
    {
      "epoch": 2.617924528301887,
      "grad_norm": 0.07488848268985748,
      "learning_rate": 0.000997099931147437,
      "loss": 0.5595,
      "num_input_tokens_seen": 3275056,
      "step": 4995
    },
    {
      "epoch": 2.620545073375262,
      "grad_norm": 0.060088444501161575,
      "learning_rate": 0.0009970752843995654,
      "loss": 0.427,
      "num_input_tokens_seen": 3278416,
      "step": 5000
    },
    {
      "epoch": 2.6231656184486374,
      "grad_norm": 0.09959455579519272,
      "learning_rate": 0.0009970505336692153,
      "loss": 0.5063,
      "num_input_tokens_seen": 3281616,
      "step": 5005
    },
    {
      "epoch": 2.6257861635220126,
      "grad_norm": 0.043068885803222656,
      "learning_rate": 0.0009970256789615642,
      "loss": 0.5083,
      "num_input_tokens_seen": 3285008,
      "step": 5010
    },
    {
      "epoch": 2.6284067085953877,
      "grad_norm": 0.08340159803628922,
      "learning_rate": 0.0009970007202818115,
      "loss": 0.4762,
      "num_input_tokens_seen": 3288112,
      "step": 5015
    },
    {
      "epoch": 2.631027253668763,
      "grad_norm": 0.17748092114925385,
      "learning_rate": 0.000996975657635178,
      "loss": 0.5351,
      "num_input_tokens_seen": 3291408,
      "step": 5020
    },
    {
      "epoch": 2.6336477987421385,
      "grad_norm": 0.07072953879833221,
      "learning_rate": 0.000996950491026907,
      "loss": 0.5119,
      "num_input_tokens_seen": 3294128,
      "step": 5025
    },
    {
      "epoch": 2.6362683438155137,
      "grad_norm": 0.10743506252765656,
      "learning_rate": 0.0009969252204622624,
      "loss": 0.4241,
      "num_input_tokens_seen": 3296688,
      "step": 5030
    },
    {
      "epoch": 2.638888888888889,
      "grad_norm": 0.09509843587875366,
      "learning_rate": 0.0009968998459465312,
      "loss": 0.2896,
      "num_input_tokens_seen": 3300528,
      "step": 5035
    },
    {
      "epoch": 2.641509433962264,
      "grad_norm": 0.059983622282743454,
      "learning_rate": 0.0009968743674850212,
      "loss": 0.4926,
      "num_input_tokens_seen": 3304368,
      "step": 5040
    },
    {
      "epoch": 2.6441299790356396,
      "grad_norm": 0.08480014652013779,
      "learning_rate": 0.0009968487850830622,
      "loss": 0.7587,
      "num_input_tokens_seen": 3307504,
      "step": 5045
    },
    {
      "epoch": 2.646750524109015,
      "grad_norm": 0.06254281848669052,
      "learning_rate": 0.0009968230987460055,
      "loss": 0.5304,
      "num_input_tokens_seen": 3309840,
      "step": 5050
    },
    {
      "epoch": 2.64937106918239,
      "grad_norm": 0.08039285987615585,
      "learning_rate": 0.0009967973084792246,
      "loss": 0.3872,
      "num_input_tokens_seen": 3313264,
      "step": 5055
    },
    {
      "epoch": 2.651991614255765,
      "grad_norm": 0.058168213814496994,
      "learning_rate": 0.0009967714142881145,
      "loss": 0.491,
      "num_input_tokens_seen": 3316368,
      "step": 5060
    },
    {
      "epoch": 2.6546121593291403,
      "grad_norm": 0.08336003124713898,
      "learning_rate": 0.0009967454161780923,
      "loss": 0.5459,
      "num_input_tokens_seen": 3319504,
      "step": 5065
    },
    {
      "epoch": 2.6572327044025155,
      "grad_norm": 0.0877673402428627,
      "learning_rate": 0.000996719314154596,
      "loss": 0.4985,
      "num_input_tokens_seen": 3322096,
      "step": 5070
    },
    {
      "epoch": 2.659853249475891,
      "grad_norm": 0.044575728476047516,
      "learning_rate": 0.0009966931082230862,
      "loss": 0.5434,
      "num_input_tokens_seen": 3325072,
      "step": 5075
    },
    {
      "epoch": 2.6624737945492662,
      "grad_norm": 0.03816964849829674,
      "learning_rate": 0.0009966667983890445,
      "loss": 0.5147,
      "num_input_tokens_seen": 3329456,
      "step": 5080
    },
    {
      "epoch": 2.6650943396226414,
      "grad_norm": 0.06520547717809677,
      "learning_rate": 0.000996640384657975,
      "loss": 0.53,
      "num_input_tokens_seen": 3332592,
      "step": 5085
    },
    {
      "epoch": 2.667714884696017,
      "grad_norm": 0.06118575483560562,
      "learning_rate": 0.0009966138670354028,
      "loss": 0.623,
      "num_input_tokens_seen": 3335152,
      "step": 5090
    },
    {
      "epoch": 2.670335429769392,
      "grad_norm": 0.052118975669145584,
      "learning_rate": 0.0009965872455268755,
      "loss": 0.4065,
      "num_input_tokens_seen": 3338384,
      "step": 5095
    },
    {
      "epoch": 2.6729559748427674,
      "grad_norm": 0.10046721249818802,
      "learning_rate": 0.0009965605201379616,
      "loss": 0.4909,
      "num_input_tokens_seen": 3341840,
      "step": 5100
    },
    {
      "epoch": 2.6755765199161425,
      "grad_norm": 0.06813172250986099,
      "learning_rate": 0.000996533690874252,
      "loss": 0.6373,
      "num_input_tokens_seen": 3345776,
      "step": 5105
    },
    {
      "epoch": 2.6781970649895177,
      "grad_norm": 0.10310141742229462,
      "learning_rate": 0.0009965067577413593,
      "loss": 0.4097,
      "num_input_tokens_seen": 3348656,
      "step": 5110
    },
    {
      "epoch": 2.680817610062893,
      "grad_norm": 0.08063320070505142,
      "learning_rate": 0.0009964797207449173,
      "loss": 0.469,
      "num_input_tokens_seen": 3351344,
      "step": 5115
    },
    {
      "epoch": 2.6834381551362685,
      "grad_norm": 0.050616126507520676,
      "learning_rate": 0.0009964525798905816,
      "loss": 0.3717,
      "num_input_tokens_seen": 3354192,
      "step": 5120
    },
    {
      "epoch": 2.6860587002096437,
      "grad_norm": 0.07373297959566116,
      "learning_rate": 0.0009964253351840303,
      "loss": 0.3465,
      "num_input_tokens_seen": 3358960,
      "step": 5125
    },
    {
      "epoch": 2.688679245283019,
      "grad_norm": 0.05299302935600281,
      "learning_rate": 0.000996397986630962,
      "loss": 0.363,
      "num_input_tokens_seen": 3361744,
      "step": 5130
    },
    {
      "epoch": 2.691299790356394,
      "grad_norm": 0.07827364653348923,
      "learning_rate": 0.0009963705342370982,
      "loss": 0.4584,
      "num_input_tokens_seen": 3364464,
      "step": 5135
    },
    {
      "epoch": 2.6939203354297696,
      "grad_norm": 0.045008398592472076,
      "learning_rate": 0.000996342978008182,
      "loss": 0.3914,
      "num_input_tokens_seen": 3367728,
      "step": 5140
    },
    {
      "epoch": 2.6965408805031448,
      "grad_norm": 0.07909437268972397,
      "learning_rate": 0.000996315317949977,
      "loss": 0.5015,
      "num_input_tokens_seen": 3371056,
      "step": 5145
    },
    {
      "epoch": 2.69916142557652,
      "grad_norm": 0.1483631432056427,
      "learning_rate": 0.0009962875540682696,
      "loss": 0.4899,
      "num_input_tokens_seen": 3374256,
      "step": 5150
    },
    {
      "epoch": 2.701781970649895,
      "grad_norm": 0.04823837801814079,
      "learning_rate": 0.0009962596863688682,
      "loss": 0.538,
      "num_input_tokens_seen": 3377776,
      "step": 5155
    },
    {
      "epoch": 2.7044025157232703,
      "grad_norm": 0.10485681891441345,
      "learning_rate": 0.000996231714857602,
      "loss": 0.7529,
      "num_input_tokens_seen": 3381200,
      "step": 5160
    },
    {
      "epoch": 2.7070230607966455,
      "grad_norm": 0.10750929266214371,
      "learning_rate": 0.000996203639540322,
      "loss": 0.4762,
      "num_input_tokens_seen": 3384048,
      "step": 5165
    },
    {
      "epoch": 2.709643605870021,
      "grad_norm": 0.06588421016931534,
      "learning_rate": 0.0009961754604229018,
      "loss": 0.3628,
      "num_input_tokens_seen": 3386800,
      "step": 5170
    },
    {
      "epoch": 2.7122641509433962,
      "grad_norm": 0.07942376285791397,
      "learning_rate": 0.0009961471775112361,
      "loss": 0.5211,
      "num_input_tokens_seen": 3389840,
      "step": 5175
    },
    {
      "epoch": 2.7148846960167714,
      "grad_norm": 0.10807827860116959,
      "learning_rate": 0.000996118790811241,
      "loss": 0.4841,
      "num_input_tokens_seen": 3393264,
      "step": 5180
    },
    {
      "epoch": 2.717505241090147,
      "grad_norm": 0.09835920482873917,
      "learning_rate": 0.0009960903003288551,
      "loss": 0.4679,
      "num_input_tokens_seen": 3396720,
      "step": 5185
    },
    {
      "epoch": 2.720125786163522,
      "grad_norm": 0.055534087121486664,
      "learning_rate": 0.0009960617060700378,
      "loss": 0.5997,
      "num_input_tokens_seen": 3399792,
      "step": 5190
    },
    {
      "epoch": 2.7227463312368974,
      "grad_norm": 0.0777961015701294,
      "learning_rate": 0.000996033008040771,
      "loss": 0.4842,
      "num_input_tokens_seen": 3402576,
      "step": 5195
    },
    {
      "epoch": 2.7253668763102725,
      "grad_norm": 0.049128834158182144,
      "learning_rate": 0.0009960042062470583,
      "loss": 0.4403,
      "num_input_tokens_seen": 3405648,
      "step": 5200
    },
    {
      "epoch": 2.7279874213836477,
      "grad_norm": 0.09118111431598663,
      "learning_rate": 0.0009959753006949241,
      "loss": 0.4459,
      "num_input_tokens_seen": 3408816,
      "step": 5205
    },
    {
      "epoch": 2.730607966457023,
      "grad_norm": 0.04815807566046715,
      "learning_rate": 0.0009959462913904154,
      "loss": 0.4472,
      "num_input_tokens_seen": 3412400,
      "step": 5210
    },
    {
      "epoch": 2.7332285115303985,
      "grad_norm": 0.06632237881422043,
      "learning_rate": 0.0009959171783396007,
      "loss": 0.389,
      "num_input_tokens_seen": 3415440,
      "step": 5215
    },
    {
      "epoch": 2.7358490566037736,
      "grad_norm": 0.08928585797548294,
      "learning_rate": 0.00099588796154857,
      "loss": 0.4482,
      "num_input_tokens_seen": 3418736,
      "step": 5220
    },
    {
      "epoch": 2.738469601677149,
      "grad_norm": 0.07958103716373444,
      "learning_rate": 0.000995858641023435,
      "loss": 0.4884,
      "num_input_tokens_seen": 3421456,
      "step": 5225
    },
    {
      "epoch": 2.741090146750524,
      "grad_norm": 0.08915317803621292,
      "learning_rate": 0.0009958292167703293,
      "loss": 0.5761,
      "num_input_tokens_seen": 3424432,
      "step": 5230
    },
    {
      "epoch": 2.7437106918238996,
      "grad_norm": 0.061896584928035736,
      "learning_rate": 0.0009957996887954082,
      "loss": 0.4079,
      "num_input_tokens_seen": 3427504,
      "step": 5235
    },
    {
      "epoch": 2.7463312368972748,
      "grad_norm": 0.07077290117740631,
      "learning_rate": 0.0009957700571048486,
      "loss": 0.3487,
      "num_input_tokens_seen": 3431568,
      "step": 5240
    },
    {
      "epoch": 2.74895178197065,
      "grad_norm": 0.057147134095430374,
      "learning_rate": 0.0009957403217048493,
      "loss": 0.6393,
      "num_input_tokens_seen": 3434736,
      "step": 5245
    },
    {
      "epoch": 2.751572327044025,
      "grad_norm": 0.07660674303770065,
      "learning_rate": 0.0009957104826016302,
      "loss": 0.4411,
      "num_input_tokens_seen": 3437360,
      "step": 5250
    },
    {
      "epoch": 2.7541928721174003,
      "grad_norm": 0.09759046137332916,
      "learning_rate": 0.0009956805398014337,
      "loss": 0.4347,
      "num_input_tokens_seen": 3441008,
      "step": 5255
    },
    {
      "epoch": 2.7568134171907754,
      "grad_norm": 0.04105149954557419,
      "learning_rate": 0.0009956504933105231,
      "loss": 0.4026,
      "num_input_tokens_seen": 3445072,
      "step": 5260
    },
    {
      "epoch": 2.759433962264151,
      "grad_norm": 0.0790058821439743,
      "learning_rate": 0.000995620343135184,
      "loss": 0.491,
      "num_input_tokens_seen": 3447952,
      "step": 5265
    },
    {
      "epoch": 2.762054507337526,
      "grad_norm": 0.06341341137886047,
      "learning_rate": 0.0009955900892817235,
      "loss": 0.4645,
      "num_input_tokens_seen": 3450640,
      "step": 5270
    },
    {
      "epoch": 2.7646750524109014,
      "grad_norm": 0.1001783087849617,
      "learning_rate": 0.0009955597317564703,
      "loss": 0.6318,
      "num_input_tokens_seen": 3454256,
      "step": 5275
    },
    {
      "epoch": 2.767295597484277,
      "grad_norm": 0.16370220482349396,
      "learning_rate": 0.0009955292705657749,
      "loss": 0.544,
      "num_input_tokens_seen": 3457104,
      "step": 5280
    },
    {
      "epoch": 2.769916142557652,
      "grad_norm": 0.06853461265563965,
      "learning_rate": 0.0009954987057160093,
      "loss": 0.3543,
      "num_input_tokens_seen": 3460016,
      "step": 5285
    },
    {
      "epoch": 2.7725366876310273,
      "grad_norm": 0.052420906722545624,
      "learning_rate": 0.0009954680372135675,
      "loss": 0.5769,
      "num_input_tokens_seen": 3464464,
      "step": 5290
    },
    {
      "epoch": 2.7751572327044025,
      "grad_norm": 0.05485664680600166,
      "learning_rate": 0.000995437265064865,
      "loss": 0.4179,
      "num_input_tokens_seen": 3468048,
      "step": 5295
    },
    {
      "epoch": 2.7777777777777777,
      "grad_norm": 0.07058725506067276,
      "learning_rate": 0.0009954063892763387,
      "loss": 0.4537,
      "num_input_tokens_seen": 3470736,
      "step": 5300
    },
    {
      "epoch": 2.780398322851153,
      "grad_norm": 0.04098077118396759,
      "learning_rate": 0.0009953754098544479,
      "loss": 0.6606,
      "num_input_tokens_seen": 3473424,
      "step": 5305
    },
    {
      "epoch": 2.7830188679245285,
      "grad_norm": 0.10439375042915344,
      "learning_rate": 0.0009953443268056726,
      "loss": 0.4201,
      "num_input_tokens_seen": 3476816,
      "step": 5310
    },
    {
      "epoch": 2.7856394129979036,
      "grad_norm": 0.052605461329221725,
      "learning_rate": 0.0009953131401365155,
      "loss": 0.6009,
      "num_input_tokens_seen": 3480016,
      "step": 5315
    },
    {
      "epoch": 2.788259958071279,
      "grad_norm": 0.1014823392033577,
      "learning_rate": 0.0009952818498535003,
      "loss": 0.3977,
      "num_input_tokens_seen": 3483824,
      "step": 5320
    },
    {
      "epoch": 2.790880503144654,
      "grad_norm": 0.07688244432210922,
      "learning_rate": 0.0009952504559631726,
      "loss": 0.4243,
      "num_input_tokens_seen": 3486416,
      "step": 5325
    },
    {
      "epoch": 2.7935010482180296,
      "grad_norm": 0.05016987398266792,
      "learning_rate": 0.0009952189584720996,
      "loss": 0.5209,
      "num_input_tokens_seen": 3490384,
      "step": 5330
    },
    {
      "epoch": 2.7961215932914047,
      "grad_norm": 0.04655470326542854,
      "learning_rate": 0.0009951873573868701,
      "loss": 0.3921,
      "num_input_tokens_seen": 3493136,
      "step": 5335
    },
    {
      "epoch": 2.79874213836478,
      "grad_norm": 0.04447856545448303,
      "learning_rate": 0.000995155652714095,
      "loss": 0.4849,
      "num_input_tokens_seen": 3496112,
      "step": 5340
    },
    {
      "epoch": 2.801362683438155,
      "grad_norm": 0.15386360883712769,
      "learning_rate": 0.0009951238444604064,
      "loss": 0.7272,
      "num_input_tokens_seen": 3498864,
      "step": 5345
    },
    {
      "epoch": 2.8039832285115303,
      "grad_norm": 0.1148219108581543,
      "learning_rate": 0.000995091932632458,
      "loss": 0.4045,
      "num_input_tokens_seen": 3502224,
      "step": 5350
    },
    {
      "epoch": 2.8066037735849054,
      "grad_norm": 0.0806741714477539,
      "learning_rate": 0.000995059917236926,
      "loss": 0.4268,
      "num_input_tokens_seen": 3505488,
      "step": 5355
    },
    {
      "epoch": 2.809224318658281,
      "grad_norm": 0.10425566881895065,
      "learning_rate": 0.000995027798280507,
      "loss": 0.4361,
      "num_input_tokens_seen": 3508560,
      "step": 5360
    },
    {
      "epoch": 2.811844863731656,
      "grad_norm": 0.04961711913347244,
      "learning_rate": 0.00099499557576992,
      "loss": 0.3769,
      "num_input_tokens_seen": 3512944,
      "step": 5365
    },
    {
      "epoch": 2.8144654088050314,
      "grad_norm": 0.049707431346178055,
      "learning_rate": 0.000994963249711906,
      "loss": 0.4344,
      "num_input_tokens_seen": 3517232,
      "step": 5370
    },
    {
      "epoch": 2.8170859538784065,
      "grad_norm": 0.0810924619436264,
      "learning_rate": 0.000994930820113227,
      "loss": 0.5161,
      "num_input_tokens_seen": 3520304,
      "step": 5375
    },
    {
      "epoch": 2.819706498951782,
      "grad_norm": 0.11871659010648727,
      "learning_rate": 0.0009948982869806668,
      "loss": 0.6954,
      "num_input_tokens_seen": 3523472,
      "step": 5380
    },
    {
      "epoch": 2.8223270440251573,
      "grad_norm": 0.08627325296401978,
      "learning_rate": 0.0009948656503210311,
      "loss": 0.5134,
      "num_input_tokens_seen": 3528336,
      "step": 5385
    },
    {
      "epoch": 2.8249475890985325,
      "grad_norm": 0.0660182386636734,
      "learning_rate": 0.000994832910141147,
      "loss": 0.4231,
      "num_input_tokens_seen": 3533680,
      "step": 5390
    },
    {
      "epoch": 2.8275681341719077,
      "grad_norm": 0.06307965517044067,
      "learning_rate": 0.0009948000664478638,
      "loss": 0.4824,
      "num_input_tokens_seen": 3536656,
      "step": 5395
    },
    {
      "epoch": 2.830188679245283,
      "grad_norm": 0.07741841673851013,
      "learning_rate": 0.0009947671192480515,
      "loss": 0.6149,
      "num_input_tokens_seen": 3539280,
      "step": 5400
    },
    {
      "epoch": 2.832809224318658,
      "grad_norm": 0.06650929152965546,
      "learning_rate": 0.0009947340685486023,
      "loss": 0.4937,
      "num_input_tokens_seen": 3542000,
      "step": 5405
    },
    {
      "epoch": 2.8354297693920336,
      "grad_norm": 0.07139838486909866,
      "learning_rate": 0.0009947009143564303,
      "loss": 0.4459,
      "num_input_tokens_seen": 3544624,
      "step": 5410
    },
    {
      "epoch": 2.838050314465409,
      "grad_norm": 0.042193423956632614,
      "learning_rate": 0.0009946676566784708,
      "loss": 0.3704,
      "num_input_tokens_seen": 3547568,
      "step": 5415
    },
    {
      "epoch": 2.840670859538784,
      "grad_norm": 0.09573005139827728,
      "learning_rate": 0.000994634295521681,
      "loss": 0.5734,
      "num_input_tokens_seen": 3550992,
      "step": 5420
    },
    {
      "epoch": 2.8432914046121596,
      "grad_norm": 0.05458209663629532,
      "learning_rate": 0.0009946008308930397,
      "loss": 0.5054,
      "num_input_tokens_seen": 3554896,
      "step": 5425
    },
    {
      "epoch": 2.8459119496855347,
      "grad_norm": 0.055866632610559464,
      "learning_rate": 0.0009945672627995473,
      "loss": 0.5044,
      "num_input_tokens_seen": 3557744,
      "step": 5430
    },
    {
      "epoch": 2.84853249475891,
      "grad_norm": 0.05008385702967644,
      "learning_rate": 0.0009945335912482256,
      "loss": 0.4849,
      "num_input_tokens_seen": 3561136,
      "step": 5435
    },
    {
      "epoch": 2.851153039832285,
      "grad_norm": 0.05384004861116409,
      "learning_rate": 0.000994499816246119,
      "loss": 0.4457,
      "num_input_tokens_seen": 3563984,
      "step": 5440
    },
    {
      "epoch": 2.8537735849056602,
      "grad_norm": 0.09225384891033173,
      "learning_rate": 0.000994465937800292,
      "loss": 0.4244,
      "num_input_tokens_seen": 3567184,
      "step": 5445
    },
    {
      "epoch": 2.8563941299790354,
      "grad_norm": 0.046594154089689255,
      "learning_rate": 0.0009944319559178321,
      "loss": 0.4308,
      "num_input_tokens_seen": 3571120,
      "step": 5450
    },
    {
      "epoch": 2.859014675052411,
      "grad_norm": 0.09686470776796341,
      "learning_rate": 0.0009943978706058478,
      "loss": 0.4305,
      "num_input_tokens_seen": 3574000,
      "step": 5455
    },
    {
      "epoch": 2.861635220125786,
      "grad_norm": 0.06717564910650253,
      "learning_rate": 0.0009943636818714695,
      "loss": 0.6303,
      "num_input_tokens_seen": 3577296,
      "step": 5460
    },
    {
      "epoch": 2.8642557651991614,
      "grad_norm": 0.08747165650129318,
      "learning_rate": 0.0009943293897218487,
      "loss": 0.5718,
      "num_input_tokens_seen": 3580368,
      "step": 5465
    },
    {
      "epoch": 2.8668763102725365,
      "grad_norm": 0.14002563059329987,
      "learning_rate": 0.0009942949941641594,
      "loss": 0.3516,
      "num_input_tokens_seen": 3583984,
      "step": 5470
    },
    {
      "epoch": 2.869496855345912,
      "grad_norm": 0.04102103039622307,
      "learning_rate": 0.0009942604952055964,
      "loss": 0.4709,
      "num_input_tokens_seen": 3588048,
      "step": 5475
    },
    {
      "epoch": 2.8721174004192873,
      "grad_norm": 0.11149755120277405,
      "learning_rate": 0.0009942258928533768,
      "loss": 0.5114,
      "num_input_tokens_seen": 3590576,
      "step": 5480
    },
    {
      "epoch": 2.8747379454926625,
      "grad_norm": 0.07143478095531464,
      "learning_rate": 0.0009941911871147386,
      "loss": 0.5725,
      "num_input_tokens_seen": 3593072,
      "step": 5485
    },
    {
      "epoch": 2.8773584905660377,
      "grad_norm": 0.12907284498214722,
      "learning_rate": 0.000994156377996942,
      "loss": 0.4646,
      "num_input_tokens_seen": 3596144,
      "step": 5490
    },
    {
      "epoch": 2.879979035639413,
      "grad_norm": 0.049327220767736435,
      "learning_rate": 0.0009941214655072692,
      "loss": 0.589,
      "num_input_tokens_seen": 3599952,
      "step": 5495
    },
    {
      "epoch": 2.882599580712788,
      "grad_norm": 0.0691327378153801,
      "learning_rate": 0.0009940864496530226,
      "loss": 0.5221,
      "num_input_tokens_seen": 3603152,
      "step": 5500
    },
    {
      "epoch": 2.8852201257861636,
      "grad_norm": 0.05375824123620987,
      "learning_rate": 0.000994051330441528,
      "loss": 0.5039,
      "num_input_tokens_seen": 3607504,
      "step": 5505
    },
    {
      "epoch": 2.8878406708595388,
      "grad_norm": 0.07289735227823257,
      "learning_rate": 0.0009940161078801312,
      "loss": 0.4099,
      "num_input_tokens_seen": 3611440,
      "step": 5510
    },
    {
      "epoch": 2.890461215932914,
      "grad_norm": 0.13516484200954437,
      "learning_rate": 0.0009939807819762008,
      "loss": 0.4844,
      "num_input_tokens_seen": 3614128,
      "step": 5515
    },
    {
      "epoch": 2.8930817610062896,
      "grad_norm": 0.07010301202535629,
      "learning_rate": 0.0009939453527371262,
      "loss": 0.3914,
      "num_input_tokens_seen": 3618256,
      "step": 5520
    },
    {
      "epoch": 2.8957023060796647,
      "grad_norm": 0.10274150967597961,
      "learning_rate": 0.0009939098201703193,
      "loss": 0.5023,
      "num_input_tokens_seen": 3621360,
      "step": 5525
    },
    {
      "epoch": 2.89832285115304,
      "grad_norm": 0.06415753066539764,
      "learning_rate": 0.0009938741842832129,
      "loss": 0.3733,
      "num_input_tokens_seen": 3624432,
      "step": 5530
    },
    {
      "epoch": 2.900943396226415,
      "grad_norm": 0.06875084340572357,
      "learning_rate": 0.0009938384450832614,
      "loss": 0.5205,
      "num_input_tokens_seen": 3626800,
      "step": 5535
    },
    {
      "epoch": 2.9035639412997902,
      "grad_norm": 0.08478102833032608,
      "learning_rate": 0.0009938026025779411,
      "loss": 0.5588,
      "num_input_tokens_seen": 3629424,
      "step": 5540
    },
    {
      "epoch": 2.9061844863731654,
      "grad_norm": 0.06068870425224304,
      "learning_rate": 0.0009937666567747501,
      "loss": 0.5975,
      "num_input_tokens_seen": 3632496,
      "step": 5545
    },
    {
      "epoch": 2.908805031446541,
      "grad_norm": 0.040260132402181625,
      "learning_rate": 0.0009937306076812076,
      "loss": 0.4418,
      "num_input_tokens_seen": 3635568,
      "step": 5550
    },
    {
      "epoch": 2.911425576519916,
      "grad_norm": 0.09781485795974731,
      "learning_rate": 0.0009936944553048548,
      "loss": 0.5681,
      "num_input_tokens_seen": 3638704,
      "step": 5555
    },
    {
      "epoch": 2.9140461215932913,
      "grad_norm": 0.0925508663058281,
      "learning_rate": 0.0009936581996532543,
      "loss": 0.4827,
      "num_input_tokens_seen": 3641904,
      "step": 5560
    },
    {
      "epoch": 2.9166666666666665,
      "grad_norm": 0.08546296507120132,
      "learning_rate": 0.0009936218407339905,
      "loss": 0.3989,
      "num_input_tokens_seen": 3645296,
      "step": 5565
    },
    {
      "epoch": 2.919287211740042,
      "grad_norm": 0.06309838593006134,
      "learning_rate": 0.0009935853785546691,
      "loss": 0.6312,
      "num_input_tokens_seen": 3648400,
      "step": 5570
    },
    {
      "epoch": 2.9219077568134173,
      "grad_norm": 0.08492378890514374,
      "learning_rate": 0.0009935488131229177,
      "loss": 0.4191,
      "num_input_tokens_seen": 3651600,
      "step": 5575
    },
    {
      "epoch": 2.9245283018867925,
      "grad_norm": 0.04318702965974808,
      "learning_rate": 0.000993512144446385,
      "loss": 0.5305,
      "num_input_tokens_seen": 3655280,
      "step": 5580
    },
    {
      "epoch": 2.9271488469601676,
      "grad_norm": 0.080398790538311,
      "learning_rate": 0.000993475372532742,
      "loss": 0.4517,
      "num_input_tokens_seen": 3657584,
      "step": 5585
    },
    {
      "epoch": 2.929769392033543,
      "grad_norm": 0.07240892946720123,
      "learning_rate": 0.0009934384973896812,
      "loss": 0.3885,
      "num_input_tokens_seen": 3660592,
      "step": 5590
    },
    {
      "epoch": 2.932389937106918,
      "grad_norm": 0.08469859510660172,
      "learning_rate": 0.0009934015190249162,
      "loss": 0.4877,
      "num_input_tokens_seen": 3663120,
      "step": 5595
    },
    {
      "epoch": 2.9350104821802936,
      "grad_norm": 0.12003014236688614,
      "learning_rate": 0.0009933644374461822,
      "loss": 0.4069,
      "num_input_tokens_seen": 3665456,
      "step": 5600
    },
    {
      "epoch": 2.9376310272536688,
      "grad_norm": 0.09622929245233536,
      "learning_rate": 0.0009933272526612366,
      "loss": 0.4628,
      "num_input_tokens_seen": 3668080,
      "step": 5605
    },
    {
      "epoch": 2.940251572327044,
      "grad_norm": 0.09296014159917831,
      "learning_rate": 0.0009932899646778578,
      "loss": 0.4661,
      "num_input_tokens_seen": 3670672,
      "step": 5610
    },
    {
      "epoch": 2.9428721174004195,
      "grad_norm": 0.06226184591650963,
      "learning_rate": 0.0009932525735038464,
      "loss": 0.5136,
      "num_input_tokens_seen": 3675312,
      "step": 5615
    },
    {
      "epoch": 2.9454926624737947,
      "grad_norm": 0.05055728182196617,
      "learning_rate": 0.0009932150791470238,
      "loss": 0.3537,
      "num_input_tokens_seen": 3678864,
      "step": 5620
    },
    {
      "epoch": 2.94811320754717,
      "grad_norm": 0.08777128159999847,
      "learning_rate": 0.0009931774816152334,
      "loss": 0.5079,
      "num_input_tokens_seen": 3681808,
      "step": 5625
    },
    {
      "epoch": 2.950733752620545,
      "grad_norm": 0.07654162496328354,
      "learning_rate": 0.0009931397809163406,
      "loss": 0.4086,
      "num_input_tokens_seen": 3684720,
      "step": 5630
    },
    {
      "epoch": 2.95335429769392,
      "grad_norm": 0.07642403244972229,
      "learning_rate": 0.0009931019770582316,
      "loss": 0.5394,
      "num_input_tokens_seen": 3687920,
      "step": 5635
    },
    {
      "epoch": 2.9559748427672954,
      "grad_norm": 0.04410577565431595,
      "learning_rate": 0.0009930640700488143,
      "loss": 0.5205,
      "num_input_tokens_seen": 3691152,
      "step": 5640
    },
    {
      "epoch": 2.958595387840671,
      "grad_norm": 0.05412067472934723,
      "learning_rate": 0.000993026059896019,
      "loss": 0.5461,
      "num_input_tokens_seen": 3694000,
      "step": 5645
    },
    {
      "epoch": 2.961215932914046,
      "grad_norm": 0.1057349443435669,
      "learning_rate": 0.0009929879466077968,
      "loss": 0.4386,
      "num_input_tokens_seen": 3696816,
      "step": 5650
    },
    {
      "epoch": 2.9638364779874213,
      "grad_norm": 0.06879238039255142,
      "learning_rate": 0.0009929497301921202,
      "loss": 0.4748,
      "num_input_tokens_seen": 3699184,
      "step": 5655
    },
    {
      "epoch": 2.9664570230607965,
      "grad_norm": 0.07039610296487808,
      "learning_rate": 0.000992911410656984,
      "loss": 0.5584,
      "num_input_tokens_seen": 3701552,
      "step": 5660
    },
    {
      "epoch": 2.969077568134172,
      "grad_norm": 0.06207038834691048,
      "learning_rate": 0.000992872988010404,
      "loss": 0.4798,
      "num_input_tokens_seen": 3704784,
      "step": 5665
    },
    {
      "epoch": 2.9716981132075473,
      "grad_norm": 0.08937688171863556,
      "learning_rate": 0.0009928344622604183,
      "loss": 0.4022,
      "num_input_tokens_seen": 3707760,
      "step": 5670
    },
    {
      "epoch": 2.9743186582809225,
      "grad_norm": 0.044979363679885864,
      "learning_rate": 0.0009927958334150853,
      "loss": 0.5301,
      "num_input_tokens_seen": 3711536,
      "step": 5675
    },
    {
      "epoch": 2.9769392033542976,
      "grad_norm": 0.06089996173977852,
      "learning_rate": 0.0009927571014824862,
      "loss": 0.4025,
      "num_input_tokens_seen": 3714224,
      "step": 5680
    },
    {
      "epoch": 2.979559748427673,
      "grad_norm": 0.06189009174704552,
      "learning_rate": 0.000992718266470723,
      "loss": 0.4493,
      "num_input_tokens_seen": 3717264,
      "step": 5685
    },
    {
      "epoch": 2.982180293501048,
      "grad_norm": 0.04052836075425148,
      "learning_rate": 0.00099267932838792,
      "loss": 0.5382,
      "num_input_tokens_seen": 3720496,
      "step": 5690
    },
    {
      "epoch": 2.9848008385744236,
      "grad_norm": 0.06706563383340836,
      "learning_rate": 0.000992640287242222,
      "loss": 0.4836,
      "num_input_tokens_seen": 3723280,
      "step": 5695
    },
    {
      "epoch": 2.9874213836477987,
      "grad_norm": 0.04884370416402817,
      "learning_rate": 0.0009926011430417961,
      "loss": 0.6847,
      "num_input_tokens_seen": 3727888,
      "step": 5700
    },
    {
      "epoch": 2.990041928721174,
      "grad_norm": 0.08503621816635132,
      "learning_rate": 0.0009925618957948312,
      "loss": 0.4267,
      "num_input_tokens_seen": 3731248,
      "step": 5705
    },
    {
      "epoch": 2.9926624737945495,
      "grad_norm": 0.11304715275764465,
      "learning_rate": 0.0009925225455095373,
      "loss": 0.4682,
      "num_input_tokens_seen": 3734032,
      "step": 5710
    },
    {
      "epoch": 2.9952830188679247,
      "grad_norm": 0.12572802603244781,
      "learning_rate": 0.0009924830921941455,
      "loss": 0.386,
      "num_input_tokens_seen": 3737872,
      "step": 5715
    },
    {
      "epoch": 2.9979035639413,
      "grad_norm": 0.07228050380945206,
      "learning_rate": 0.0009924435358569096,
      "loss": 0.4665,
      "num_input_tokens_seen": 3741360,
      "step": 5720
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.4607710540294647,
      "eval_runtime": 13.3659,
      "eval_samples_per_second": 63.445,
      "eval_steps_per_second": 15.861,
      "num_input_tokens_seen": 3743760,
      "step": 5724
    },
    {
      "epoch": 3.000524109014675,
      "grad_norm": 0.08089187741279602,
      "learning_rate": 0.000992403876506104,
      "loss": 0.4831,
      "num_input_tokens_seen": 3744240,
      "step": 5725
    },
    {
      "epoch": 3.00314465408805,
      "grad_norm": 0.07793688029050827,
      "learning_rate": 0.000992364114150025,
      "loss": 0.4053,
      "num_input_tokens_seen": 3746832,
      "step": 5730
    },
    {
      "epoch": 3.0057651991614254,
      "grad_norm": 0.06611347198486328,
      "learning_rate": 0.0009923242487969908,
      "loss": 0.4363,
      "num_input_tokens_seen": 3750608,
      "step": 5735
    },
    {
      "epoch": 3.008385744234801,
      "grad_norm": 0.190660297870636,
      "learning_rate": 0.0009922842804553403,
      "loss": 0.4606,
      "num_input_tokens_seen": 3753360,
      "step": 5740
    },
    {
      "epoch": 3.011006289308176,
      "grad_norm": 0.10701636224985123,
      "learning_rate": 0.0009922442091334345,
      "loss": 0.4971,
      "num_input_tokens_seen": 3755824,
      "step": 5745
    },
    {
      "epoch": 3.0136268343815513,
      "grad_norm": 0.08757376670837402,
      "learning_rate": 0.0009922040348396561,
      "loss": 0.3859,
      "num_input_tokens_seen": 3758640,
      "step": 5750
    },
    {
      "epoch": 3.0162473794549265,
      "grad_norm": 0.07594045996665955,
      "learning_rate": 0.000992163757582409,
      "loss": 0.4666,
      "num_input_tokens_seen": 3761712,
      "step": 5755
    },
    {
      "epoch": 3.018867924528302,
      "grad_norm": 0.09099841117858887,
      "learning_rate": 0.0009921233773701188,
      "loss": 0.4142,
      "num_input_tokens_seen": 3764368,
      "step": 5760
    },
    {
      "epoch": 3.0214884696016773,
      "grad_norm": 0.03828475624322891,
      "learning_rate": 0.0009920828942112322,
      "loss": 0.5882,
      "num_input_tokens_seen": 3768112,
      "step": 5765
    },
    {
      "epoch": 3.0241090146750524,
      "grad_norm": 0.04976564273238182,
      "learning_rate": 0.0009920423081142184,
      "loss": 0.4942,
      "num_input_tokens_seen": 3773200,
      "step": 5770
    },
    {
      "epoch": 3.0267295597484276,
      "grad_norm": 0.04792322963476181,
      "learning_rate": 0.0009920016190875672,
      "loss": 0.5925,
      "num_input_tokens_seen": 3777360,
      "step": 5775
    },
    {
      "epoch": 3.029350104821803,
      "grad_norm": 0.14657339453697205,
      "learning_rate": 0.00099196082713979,
      "loss": 0.6081,
      "num_input_tokens_seen": 3780240,
      "step": 5780
    },
    {
      "epoch": 3.0319706498951784,
      "grad_norm": 0.09221556037664413,
      "learning_rate": 0.0009919199322794207,
      "loss": 0.4209,
      "num_input_tokens_seen": 3784528,
      "step": 5785
    },
    {
      "epoch": 3.0345911949685536,
      "grad_norm": 0.07547932118177414,
      "learning_rate": 0.0009918789345150136,
      "loss": 0.5259,
      "num_input_tokens_seen": 3787376,
      "step": 5790
    },
    {
      "epoch": 3.0372117400419287,
      "grad_norm": 0.052820298820734024,
      "learning_rate": 0.000991837833855145,
      "loss": 0.4387,
      "num_input_tokens_seen": 3790512,
      "step": 5795
    },
    {
      "epoch": 3.039832285115304,
      "grad_norm": 0.05630353465676308,
      "learning_rate": 0.000991796630308413,
      "loss": 0.4904,
      "num_input_tokens_seen": 3793744,
      "step": 5800
    },
    {
      "epoch": 3.042452830188679,
      "grad_norm": 0.05516178533434868,
      "learning_rate": 0.0009917553238834363,
      "loss": 0.5492,
      "num_input_tokens_seen": 3796560,
      "step": 5805
    },
    {
      "epoch": 3.0450733752620547,
      "grad_norm": 0.056254927068948746,
      "learning_rate": 0.0009917139145888562,
      "loss": 0.3539,
      "num_input_tokens_seen": 3799440,
      "step": 5810
    },
    {
      "epoch": 3.04769392033543,
      "grad_norm": 0.05240267142653465,
      "learning_rate": 0.000991672402433335,
      "loss": 0.5107,
      "num_input_tokens_seen": 3802320,
      "step": 5815
    },
    {
      "epoch": 3.050314465408805,
      "grad_norm": 0.07255305349826813,
      "learning_rate": 0.0009916307874255565,
      "loss": 0.4678,
      "num_input_tokens_seen": 3805552,
      "step": 5820
    },
    {
      "epoch": 3.05293501048218,
      "grad_norm": 0.0753222107887268,
      "learning_rate": 0.000991589069574226,
      "loss": 0.4895,
      "num_input_tokens_seen": 3808688,
      "step": 5825
    },
    {
      "epoch": 3.0555555555555554,
      "grad_norm": 0.06320993602275848,
      "learning_rate": 0.0009915472488880705,
      "loss": 0.4219,
      "num_input_tokens_seen": 3811952,
      "step": 5830
    },
    {
      "epoch": 3.058176100628931,
      "grad_norm": 0.07419946789741516,
      "learning_rate": 0.0009915053253758386,
      "loss": 0.4736,
      "num_input_tokens_seen": 3818960,
      "step": 5835
    },
    {
      "epoch": 3.060796645702306,
      "grad_norm": 0.0549904927611351,
      "learning_rate": 0.0009914632990462998,
      "loss": 0.4352,
      "num_input_tokens_seen": 3822384,
      "step": 5840
    },
    {
      "epoch": 3.0634171907756813,
      "grad_norm": 0.05890943109989166,
      "learning_rate": 0.0009914211699082458,
      "loss": 0.5539,
      "num_input_tokens_seen": 3825136,
      "step": 5845
    },
    {
      "epoch": 3.0660377358490565,
      "grad_norm": 0.04415306821465492,
      "learning_rate": 0.0009913789379704897,
      "loss": 0.457,
      "num_input_tokens_seen": 3829680,
      "step": 5850
    },
    {
      "epoch": 3.068658280922432,
      "grad_norm": 0.08629961311817169,
      "learning_rate": 0.0009913366032418653,
      "loss": 0.4371,
      "num_input_tokens_seen": 3832688,
      "step": 5855
    },
    {
      "epoch": 3.0712788259958073,
      "grad_norm": 0.0894424319267273,
      "learning_rate": 0.0009912941657312293,
      "loss": 0.447,
      "num_input_tokens_seen": 3835472,
      "step": 5860
    },
    {
      "epoch": 3.0738993710691824,
      "grad_norm": 0.0690007209777832,
      "learning_rate": 0.0009912516254474586,
      "loss": 0.4969,
      "num_input_tokens_seen": 3838192,
      "step": 5865
    },
    {
      "epoch": 3.0765199161425576,
      "grad_norm": 0.11094880104064941,
      "learning_rate": 0.0009912089823994525,
      "loss": 0.5386,
      "num_input_tokens_seen": 3841584,
      "step": 5870
    },
    {
      "epoch": 3.0791404612159328,
      "grad_norm": 0.06112853065133095,
      "learning_rate": 0.0009911662365961313,
      "loss": 0.4575,
      "num_input_tokens_seen": 3844400,
      "step": 5875
    },
    {
      "epoch": 3.0817610062893084,
      "grad_norm": 0.014551105909049511,
      "learning_rate": 0.000991123388046437,
      "loss": 0.3891,
      "num_input_tokens_seen": 3851632,
      "step": 5880
    },
    {
      "epoch": 3.0843815513626835,
      "grad_norm": 0.11452855169773102,
      "learning_rate": 0.0009910804367593328,
      "loss": 0.4504,
      "num_input_tokens_seen": 3854448,
      "step": 5885
    },
    {
      "epoch": 3.0870020964360587,
      "grad_norm": 0.045524388551712036,
      "learning_rate": 0.0009910373827438038,
      "loss": 0.5248,
      "num_input_tokens_seen": 3858128,
      "step": 5890
    },
    {
      "epoch": 3.089622641509434,
      "grad_norm": 0.07265860587358475,
      "learning_rate": 0.0009909942260088562,
      "loss": 0.4471,
      "num_input_tokens_seen": 3861104,
      "step": 5895
    },
    {
      "epoch": 3.092243186582809,
      "grad_norm": 0.05561629310250282,
      "learning_rate": 0.0009909509665635184,
      "loss": 0.4471,
      "num_input_tokens_seen": 3864368,
      "step": 5900
    },
    {
      "epoch": 3.0948637316561847,
      "grad_norm": 0.06467033922672272,
      "learning_rate": 0.0009909076044168394,
      "loss": 0.4792,
      "num_input_tokens_seen": 3867184,
      "step": 5905
    },
    {
      "epoch": 3.09748427672956,
      "grad_norm": 0.058346938341856,
      "learning_rate": 0.00099086413957789,
      "loss": 0.4672,
      "num_input_tokens_seen": 3869776,
      "step": 5910
    },
    {
      "epoch": 3.100104821802935,
      "grad_norm": 0.23652219772338867,
      "learning_rate": 0.0009908205720557627,
      "loss": 0.5592,
      "num_input_tokens_seen": 3871952,
      "step": 5915
    },
    {
      "epoch": 3.10272536687631,
      "grad_norm": 0.08438271284103394,
      "learning_rate": 0.0009907769018595713,
      "loss": 0.4747,
      "num_input_tokens_seen": 3875408,
      "step": 5920
    },
    {
      "epoch": 3.1053459119496853,
      "grad_norm": 0.10476891696453094,
      "learning_rate": 0.0009907331289984512,
      "loss": 0.646,
      "num_input_tokens_seen": 3879664,
      "step": 5925
    },
    {
      "epoch": 3.107966457023061,
      "grad_norm": 0.08994664996862411,
      "learning_rate": 0.000990689253481559,
      "loss": 0.6319,
      "num_input_tokens_seen": 3882928,
      "step": 5930
    },
    {
      "epoch": 3.110587002096436,
      "grad_norm": 0.062464889138936996,
      "learning_rate": 0.000990645275318073,
      "loss": 0.5707,
      "num_input_tokens_seen": 3886288,
      "step": 5935
    },
    {
      "epoch": 3.1132075471698113,
      "grad_norm": 0.06829652190208435,
      "learning_rate": 0.000990601194517193,
      "loss": 0.6194,
      "num_input_tokens_seen": 3889232,
      "step": 5940
    },
    {
      "epoch": 3.1158280922431865,
      "grad_norm": 0.07691735029220581,
      "learning_rate": 0.0009905570110881402,
      "loss": 0.5165,
      "num_input_tokens_seen": 3892528,
      "step": 5945
    },
    {
      "epoch": 3.1184486373165616,
      "grad_norm": 0.06941826641559601,
      "learning_rate": 0.0009905127250401573,
      "loss": 0.5051,
      "num_input_tokens_seen": 3894992,
      "step": 5950
    },
    {
      "epoch": 3.1210691823899372,
      "grad_norm": 0.13366703689098358,
      "learning_rate": 0.0009904683363825084,
      "loss": 0.4585,
      "num_input_tokens_seen": 3897744,
      "step": 5955
    },
    {
      "epoch": 3.1236897274633124,
      "grad_norm": 0.10171586275100708,
      "learning_rate": 0.0009904238451244791,
      "loss": 0.4652,
      "num_input_tokens_seen": 3899888,
      "step": 5960
    },
    {
      "epoch": 3.1263102725366876,
      "grad_norm": 0.09874551743268967,
      "learning_rate": 0.0009903792512753764,
      "loss": 0.5643,
      "num_input_tokens_seen": 3905904,
      "step": 5965
    },
    {
      "epoch": 3.1289308176100628,
      "grad_norm": 0.07292134314775467,
      "learning_rate": 0.0009903345548445289,
      "loss": 0.5989,
      "num_input_tokens_seen": 3908688,
      "step": 5970
    },
    {
      "epoch": 3.131551362683438,
      "grad_norm": 0.08498643338680267,
      "learning_rate": 0.0009902897558412864,
      "loss": 0.5953,
      "num_input_tokens_seen": 3912048,
      "step": 5975
    },
    {
      "epoch": 3.1341719077568135,
      "grad_norm": 0.08108628541231155,
      "learning_rate": 0.0009902448542750207,
      "loss": 0.5337,
      "num_input_tokens_seen": 3915344,
      "step": 5980
    },
    {
      "epoch": 3.1367924528301887,
      "grad_norm": 0.06146978214383125,
      "learning_rate": 0.0009901998501551245,
      "loss": 0.5515,
      "num_input_tokens_seen": 3918448,
      "step": 5985
    },
    {
      "epoch": 3.139412997903564,
      "grad_norm": 0.12449172884225845,
      "learning_rate": 0.000990154743491012,
      "loss": 0.5293,
      "num_input_tokens_seen": 3921040,
      "step": 5990
    },
    {
      "epoch": 3.142033542976939,
      "grad_norm": 0.06942681223154068,
      "learning_rate": 0.0009901095342921193,
      "loss": 0.553,
      "num_input_tokens_seen": 3924560,
      "step": 5995
    },
    {
      "epoch": 3.1446540880503147,
      "grad_norm": 0.058457132428884506,
      "learning_rate": 0.0009900642225679035,
      "loss": 0.4578,
      "num_input_tokens_seen": 3927056,
      "step": 6000
    },
    {
      "epoch": 3.14727463312369,
      "grad_norm": 0.049432624131441116,
      "learning_rate": 0.000990018808327843,
      "loss": 0.4589,
      "num_input_tokens_seen": 3930032,
      "step": 6005
    },
    {
      "epoch": 3.149895178197065,
      "grad_norm": 0.07253892719745636,
      "learning_rate": 0.0009899732915814386,
      "loss": 0.3903,
      "num_input_tokens_seen": 3933488,
      "step": 6010
    },
    {
      "epoch": 3.15251572327044,
      "grad_norm": 0.05156785994768143,
      "learning_rate": 0.0009899276723382112,
      "loss": 0.4796,
      "num_input_tokens_seen": 3937488,
      "step": 6015
    },
    {
      "epoch": 3.1551362683438153,
      "grad_norm": 0.06860270351171494,
      "learning_rate": 0.0009898819506077043,
      "loss": 0.5439,
      "num_input_tokens_seen": 3940528,
      "step": 6020
    },
    {
      "epoch": 3.157756813417191,
      "grad_norm": 0.06944571435451508,
      "learning_rate": 0.0009898361263994823,
      "loss": 0.4127,
      "num_input_tokens_seen": 3944112,
      "step": 6025
    },
    {
      "epoch": 3.160377358490566,
      "grad_norm": 0.07454677671194077,
      "learning_rate": 0.0009897901997231308,
      "loss": 0.4747,
      "num_input_tokens_seen": 3947568,
      "step": 6030
    },
    {
      "epoch": 3.1629979035639413,
      "grad_norm": 0.05482572317123413,
      "learning_rate": 0.0009897441705882576,
      "loss": 0.4226,
      "num_input_tokens_seen": 3950896,
      "step": 6035
    },
    {
      "epoch": 3.1656184486373165,
      "grad_norm": 0.08383480459451675,
      "learning_rate": 0.0009896980390044908,
      "loss": 0.4918,
      "num_input_tokens_seen": 3954256,
      "step": 6040
    },
    {
      "epoch": 3.1682389937106916,
      "grad_norm": 0.08938629180192947,
      "learning_rate": 0.0009896518049814812,
      "loss": 0.484,
      "num_input_tokens_seen": 3958640,
      "step": 6045
    },
    {
      "epoch": 3.1708595387840672,
      "grad_norm": 0.1499323844909668,
      "learning_rate": 0.0009896054685289005,
      "loss": 0.5941,
      "num_input_tokens_seen": 3961072,
      "step": 6050
    },
    {
      "epoch": 3.1734800838574424,
      "grad_norm": 0.10994244366884232,
      "learning_rate": 0.0009895590296564412,
      "loss": 0.4303,
      "num_input_tokens_seen": 3964816,
      "step": 6055
    },
    {
      "epoch": 3.1761006289308176,
      "grad_norm": 0.059676866978406906,
      "learning_rate": 0.000989512488373818,
      "loss": 0.5019,
      "num_input_tokens_seen": 3967824,
      "step": 6060
    },
    {
      "epoch": 3.1787211740041927,
      "grad_norm": 0.08668005466461182,
      "learning_rate": 0.0009894658446907671,
      "loss": 0.4533,
      "num_input_tokens_seen": 3970960,
      "step": 6065
    },
    {
      "epoch": 3.181341719077568,
      "grad_norm": 0.0901755765080452,
      "learning_rate": 0.0009894190986170458,
      "loss": 0.4285,
      "num_input_tokens_seen": 3973872,
      "step": 6070
    },
    {
      "epoch": 3.1839622641509435,
      "grad_norm": 0.0846051499247551,
      "learning_rate": 0.0009893722501624323,
      "loss": 0.5693,
      "num_input_tokens_seen": 3976496,
      "step": 6075
    },
    {
      "epoch": 3.1865828092243187,
      "grad_norm": 0.094281867146492,
      "learning_rate": 0.0009893252993367272,
      "loss": 0.468,
      "num_input_tokens_seen": 3979248,
      "step": 6080
    },
    {
      "epoch": 3.189203354297694,
      "grad_norm": 0.057970304042100906,
      "learning_rate": 0.000989278246149752,
      "loss": 0.5021,
      "num_input_tokens_seen": 3986352,
      "step": 6085
    },
    {
      "epoch": 3.191823899371069,
      "grad_norm": 0.0836615040898323,
      "learning_rate": 0.0009892310906113497,
      "loss": 0.6112,
      "num_input_tokens_seen": 3989808,
      "step": 6090
    },
    {
      "epoch": 3.1944444444444446,
      "grad_norm": 0.045487113296985626,
      "learning_rate": 0.0009891838327313847,
      "loss": 0.6456,
      "num_input_tokens_seen": 3993104,
      "step": 6095
    },
    {
      "epoch": 3.19706498951782,
      "grad_norm": 0.04917500168085098,
      "learning_rate": 0.000989136472519743,
      "loss": 0.4128,
      "num_input_tokens_seen": 3996240,
      "step": 6100
    },
    {
      "epoch": 3.199685534591195,
      "grad_norm": 0.05140608176589012,
      "learning_rate": 0.0009890890099863313,
      "loss": 0.3431,
      "num_input_tokens_seen": 4000336,
      "step": 6105
    },
    {
      "epoch": 3.20230607966457,
      "grad_norm": 0.05503075569868088,
      "learning_rate": 0.0009890414451410787,
      "loss": 0.4719,
      "num_input_tokens_seen": 4004400,
      "step": 6110
    },
    {
      "epoch": 3.2049266247379453,
      "grad_norm": 0.06460132449865341,
      "learning_rate": 0.0009889937779939348,
      "loss": 0.4789,
      "num_input_tokens_seen": 4007920,
      "step": 6115
    },
    {
      "epoch": 3.207547169811321,
      "grad_norm": 0.08717890083789825,
      "learning_rate": 0.0009889460085548715,
      "loss": 0.4132,
      "num_input_tokens_seen": 4011152,
      "step": 6120
    },
    {
      "epoch": 3.210167714884696,
      "grad_norm": 0.05578456073999405,
      "learning_rate": 0.0009888981368338815,
      "loss": 0.4375,
      "num_input_tokens_seen": 4013968,
      "step": 6125
    },
    {
      "epoch": 3.2127882599580713,
      "grad_norm": 0.07957783341407776,
      "learning_rate": 0.0009888501628409789,
      "loss": 0.5314,
      "num_input_tokens_seen": 4017072,
      "step": 6130
    },
    {
      "epoch": 3.2154088050314464,
      "grad_norm": 0.06173747032880783,
      "learning_rate": 0.0009888020865861991,
      "loss": 0.5522,
      "num_input_tokens_seen": 4020976,
      "step": 6135
    },
    {
      "epoch": 3.2180293501048216,
      "grad_norm": 0.0516401007771492,
      "learning_rate": 0.0009887539080795996,
      "loss": 0.5738,
      "num_input_tokens_seen": 4025008,
      "step": 6140
    },
    {
      "epoch": 3.220649895178197,
      "grad_norm": 0.03578070551156998,
      "learning_rate": 0.0009887056273312584,
      "loss": 0.4584,
      "num_input_tokens_seen": 4029744,
      "step": 6145
    },
    {
      "epoch": 3.2232704402515724,
      "grad_norm": 0.06758271902799606,
      "learning_rate": 0.0009886572443512753,
      "loss": 0.3937,
      "num_input_tokens_seen": 4033904,
      "step": 6150
    },
    {
      "epoch": 3.2258909853249476,
      "grad_norm": 0.05648522451519966,
      "learning_rate": 0.0009886087591497717,
      "loss": 0.4792,
      "num_input_tokens_seen": 4037392,
      "step": 6155
    },
    {
      "epoch": 3.2285115303983227,
      "grad_norm": 0.14793820679187775,
      "learning_rate": 0.00098856017173689,
      "loss": 0.5985,
      "num_input_tokens_seen": 4040336,
      "step": 6160
    },
    {
      "epoch": 3.231132075471698,
      "grad_norm": 0.06779325753450394,
      "learning_rate": 0.0009885114821227942,
      "loss": 0.5584,
      "num_input_tokens_seen": 4044016,
      "step": 6165
    },
    {
      "epoch": 3.2337526205450735,
      "grad_norm": 0.08922860026359558,
      "learning_rate": 0.0009884626903176696,
      "loss": 0.483,
      "num_input_tokens_seen": 4046832,
      "step": 6170
    },
    {
      "epoch": 3.2363731656184487,
      "grad_norm": 0.10722776502370834,
      "learning_rate": 0.0009884137963317228,
      "loss": 0.4714,
      "num_input_tokens_seen": 4048816,
      "step": 6175
    },
    {
      "epoch": 3.238993710691824,
      "grad_norm": 0.055626221001148224,
      "learning_rate": 0.000988364800175182,
      "loss": 0.4397,
      "num_input_tokens_seen": 4051728,
      "step": 6180
    },
    {
      "epoch": 3.241614255765199,
      "grad_norm": 0.06451791524887085,
      "learning_rate": 0.0009883157018582966,
      "loss": 0.378,
      "num_input_tokens_seen": 4055472,
      "step": 6185
    },
    {
      "epoch": 3.2442348008385746,
      "grad_norm": 0.049388859421014786,
      "learning_rate": 0.0009882665013913373,
      "loss": 0.5663,
      "num_input_tokens_seen": 4059056,
      "step": 6190
    },
    {
      "epoch": 3.24685534591195,
      "grad_norm": 0.10019624978303909,
      "learning_rate": 0.0009882171987845962,
      "loss": 0.3751,
      "num_input_tokens_seen": 4061840,
      "step": 6195
    },
    {
      "epoch": 3.249475890985325,
      "grad_norm": 0.09310393780469894,
      "learning_rate": 0.000988167794048387,
      "loss": 0.4815,
      "num_input_tokens_seen": 4064656,
      "step": 6200
    },
    {
      "epoch": 3.2520964360587,
      "grad_norm": 0.09868510812520981,
      "learning_rate": 0.0009881182871930448,
      "loss": 0.6353,
      "num_input_tokens_seen": 4068368,
      "step": 6205
    },
    {
      "epoch": 3.2547169811320753,
      "grad_norm": 0.08732808381319046,
      "learning_rate": 0.0009880686782289256,
      "loss": 0.5529,
      "num_input_tokens_seen": 4071312,
      "step": 6210
    },
    {
      "epoch": 3.257337526205451,
      "grad_norm": 0.06856763362884521,
      "learning_rate": 0.000988018967166407,
      "loss": 0.4934,
      "num_input_tokens_seen": 4074736,
      "step": 6215
    },
    {
      "epoch": 3.259958071278826,
      "grad_norm": 0.03325311094522476,
      "learning_rate": 0.0009879691540158884,
      "loss": 0.4686,
      "num_input_tokens_seen": 4078960,
      "step": 6220
    },
    {
      "epoch": 3.2625786163522013,
      "grad_norm": 0.06311541795730591,
      "learning_rate": 0.0009879192387877895,
      "loss": 0.4962,
      "num_input_tokens_seen": 4082512,
      "step": 6225
    },
    {
      "epoch": 3.2651991614255764,
      "grad_norm": 0.05211448296904564,
      "learning_rate": 0.0009878692214925523,
      "loss": 0.4005,
      "num_input_tokens_seen": 4086352,
      "step": 6230
    },
    {
      "epoch": 3.2678197064989516,
      "grad_norm": 0.20994016528129578,
      "learning_rate": 0.00098781910214064,
      "loss": 0.6157,
      "num_input_tokens_seen": 4090832,
      "step": 6235
    },
    {
      "epoch": 3.270440251572327,
      "grad_norm": 0.052011068910360336,
      "learning_rate": 0.0009877688807425368,
      "loss": 0.4558,
      "num_input_tokens_seen": 4093936,
      "step": 6240
    },
    {
      "epoch": 3.2730607966457024,
      "grad_norm": 0.10814033448696136,
      "learning_rate": 0.0009877185573087487,
      "loss": 0.5639,
      "num_input_tokens_seen": 4097136,
      "step": 6245
    },
    {
      "epoch": 3.2756813417190775,
      "grad_norm": 0.08448204398155212,
      "learning_rate": 0.0009876681318498025,
      "loss": 0.7234,
      "num_input_tokens_seen": 4099632,
      "step": 6250
    },
    {
      "epoch": 3.2783018867924527,
      "grad_norm": 0.07629653811454773,
      "learning_rate": 0.0009876176043762466,
      "loss": 0.4988,
      "num_input_tokens_seen": 4102576,
      "step": 6255
    },
    {
      "epoch": 3.280922431865828,
      "grad_norm": 0.043915167450904846,
      "learning_rate": 0.000987566974898651,
      "loss": 0.4293,
      "num_input_tokens_seen": 4106928,
      "step": 6260
    },
    {
      "epoch": 3.2835429769392035,
      "grad_norm": 0.10219939798116684,
      "learning_rate": 0.0009875162434276065,
      "loss": 0.5933,
      "num_input_tokens_seen": 4111152,
      "step": 6265
    },
    {
      "epoch": 3.2861635220125787,
      "grad_norm": 0.07986418902873993,
      "learning_rate": 0.000987465409973726,
      "loss": 0.4761,
      "num_input_tokens_seen": 4113712,
      "step": 6270
    },
    {
      "epoch": 3.288784067085954,
      "grad_norm": 0.1029588133096695,
      "learning_rate": 0.0009874144745476432,
      "loss": 0.5388,
      "num_input_tokens_seen": 4116944,
      "step": 6275
    },
    {
      "epoch": 3.291404612159329,
      "grad_norm": 0.1103694811463356,
      "learning_rate": 0.0009873634371600126,
      "loss": 0.3974,
      "num_input_tokens_seen": 4122128,
      "step": 6280
    },
    {
      "epoch": 3.2940251572327046,
      "grad_norm": 0.05848631635308266,
      "learning_rate": 0.0009873122978215115,
      "loss": 0.5451,
      "num_input_tokens_seen": 4125584,
      "step": 6285
    },
    {
      "epoch": 3.29664570230608,
      "grad_norm": 0.13251587748527527,
      "learning_rate": 0.000987261056542837,
      "loss": 0.3687,
      "num_input_tokens_seen": 4128784,
      "step": 6290
    },
    {
      "epoch": 3.299266247379455,
      "grad_norm": 0.11598221212625504,
      "learning_rate": 0.0009872097133347085,
      "loss": 0.3564,
      "num_input_tokens_seen": 4131120,
      "step": 6295
    },
    {
      "epoch": 3.30188679245283,
      "grad_norm": 0.06803200393915176,
      "learning_rate": 0.0009871582682078664,
      "loss": 0.4317,
      "num_input_tokens_seen": 4133904,
      "step": 6300
    },
    {
      "epoch": 3.3045073375262053,
      "grad_norm": 0.03174683451652527,
      "learning_rate": 0.0009871067211730722,
      "loss": 0.377,
      "num_input_tokens_seen": 4137456,
      "step": 6305
    },
    {
      "epoch": 3.307127882599581,
      "grad_norm": 0.09697435796260834,
      "learning_rate": 0.0009870550722411093,
      "loss": 0.5582,
      "num_input_tokens_seen": 4140272,
      "step": 6310
    },
    {
      "epoch": 3.309748427672956,
      "grad_norm": 0.054426293820142746,
      "learning_rate": 0.000987003321422782,
      "loss": 0.5033,
      "num_input_tokens_seen": 4143600,
      "step": 6315
    },
    {
      "epoch": 3.3123689727463312,
      "grad_norm": 0.13161219656467438,
      "learning_rate": 0.0009869514687289155,
      "loss": 0.4125,
      "num_input_tokens_seen": 4146896,
      "step": 6320
    },
    {
      "epoch": 3.3149895178197064,
      "grad_norm": 0.05969030037522316,
      "learning_rate": 0.0009868995141703576,
      "loss": 0.4821,
      "num_input_tokens_seen": 4150448,
      "step": 6325
    },
    {
      "epoch": 3.3176100628930816,
      "grad_norm": 0.0429285392165184,
      "learning_rate": 0.000986847457757976,
      "loss": 0.3896,
      "num_input_tokens_seen": 4155504,
      "step": 6330
    },
    {
      "epoch": 3.320230607966457,
      "grad_norm": 0.03036288172006607,
      "learning_rate": 0.0009867952995026605,
      "loss": 0.4137,
      "num_input_tokens_seen": 4158800,
      "step": 6335
    },
    {
      "epoch": 3.3228511530398324,
      "grad_norm": 0.04550367593765259,
      "learning_rate": 0.0009867430394153221,
      "loss": 0.3807,
      "num_input_tokens_seen": 4162832,
      "step": 6340
    },
    {
      "epoch": 3.3254716981132075,
      "grad_norm": 0.05235958471894264,
      "learning_rate": 0.0009866906775068927,
      "loss": 0.4554,
      "num_input_tokens_seen": 4166544,
      "step": 6345
    },
    {
      "epoch": 3.3280922431865827,
      "grad_norm": 0.03545888140797615,
      "learning_rate": 0.0009866382137883262,
      "loss": 0.6624,
      "num_input_tokens_seen": 4170448,
      "step": 6350
    },
    {
      "epoch": 3.330712788259958,
      "grad_norm": 0.06289251893758774,
      "learning_rate": 0.0009865856482705973,
      "loss": 0.5202,
      "num_input_tokens_seen": 4174160,
      "step": 6355
    },
    {
      "epoch": 3.3333333333333335,
      "grad_norm": 0.10747785121202469,
      "learning_rate": 0.0009865329809647019,
      "loss": 0.4626,
      "num_input_tokens_seen": 4177584,
      "step": 6360
    },
    {
      "epoch": 3.3359538784067087,
      "grad_norm": 0.10457494854927063,
      "learning_rate": 0.0009864802118816575,
      "loss": 0.3363,
      "num_input_tokens_seen": 4179472,
      "step": 6365
    },
    {
      "epoch": 3.338574423480084,
      "grad_norm": 0.1038002297282219,
      "learning_rate": 0.0009864273410325028,
      "loss": 0.5393,
      "num_input_tokens_seen": 4182192,
      "step": 6370
    },
    {
      "epoch": 3.341194968553459,
      "grad_norm": 0.08959390223026276,
      "learning_rate": 0.000986374368428298,
      "loss": 0.3605,
      "num_input_tokens_seen": 4185040,
      "step": 6375
    },
    {
      "epoch": 3.3438155136268346,
      "grad_norm": 0.09239427745342255,
      "learning_rate": 0.000986321294080124,
      "loss": 0.4821,
      "num_input_tokens_seen": 4187952,
      "step": 6380
    },
    {
      "epoch": 3.3464360587002098,
      "grad_norm": 0.09156552702188492,
      "learning_rate": 0.0009862681179990838,
      "loss": 0.48,
      "num_input_tokens_seen": 4191184,
      "step": 6385
    },
    {
      "epoch": 3.349056603773585,
      "grad_norm": 0.09133443981409073,
      "learning_rate": 0.0009862148401963008,
      "loss": 0.509,
      "num_input_tokens_seen": 4194064,
      "step": 6390
    },
    {
      "epoch": 3.35167714884696,
      "grad_norm": 0.07047706097364426,
      "learning_rate": 0.0009861614606829201,
      "loss": 0.4023,
      "num_input_tokens_seen": 4196688,
      "step": 6395
    },
    {
      "epoch": 3.3542976939203353,
      "grad_norm": 0.0737687200307846,
      "learning_rate": 0.0009861079794701085,
      "loss": 0.3971,
      "num_input_tokens_seen": 4199952,
      "step": 6400
    },
    {
      "epoch": 3.3569182389937104,
      "grad_norm": 0.07342539727687836,
      "learning_rate": 0.000986054396569053,
      "loss": 0.437,
      "num_input_tokens_seen": 4203792,
      "step": 6405
    },
    {
      "epoch": 3.359538784067086,
      "grad_norm": 0.06945499777793884,
      "learning_rate": 0.0009860007119909635,
      "loss": 0.3584,
      "num_input_tokens_seen": 4206736,
      "step": 6410
    },
    {
      "epoch": 3.3621593291404612,
      "grad_norm": 0.06366875022649765,
      "learning_rate": 0.0009859469257470692,
      "loss": 0.5472,
      "num_input_tokens_seen": 4210032,
      "step": 6415
    },
    {
      "epoch": 3.3647798742138364,
      "grad_norm": 0.1054636687040329,
      "learning_rate": 0.0009858930378486223,
      "loss": 0.4712,
      "num_input_tokens_seen": 4212848,
      "step": 6420
    },
    {
      "epoch": 3.3674004192872116,
      "grad_norm": 0.14784280955791473,
      "learning_rate": 0.000985839048306895,
      "loss": 0.6013,
      "num_input_tokens_seen": 4215376,
      "step": 6425
    },
    {
      "epoch": 3.370020964360587,
      "grad_norm": 0.11329462379217148,
      "learning_rate": 0.000985784957133182,
      "loss": 0.5233,
      "num_input_tokens_seen": 4218288,
      "step": 6430
    },
    {
      "epoch": 3.3726415094339623,
      "grad_norm": 0.0645139068365097,
      "learning_rate": 0.0009857307643387975,
      "loss": 0.4145,
      "num_input_tokens_seen": 4221488,
      "step": 6435
    },
    {
      "epoch": 3.3752620545073375,
      "grad_norm": 0.06793485581874847,
      "learning_rate": 0.000985676469935079,
      "loss": 0.8113,
      "num_input_tokens_seen": 4224432,
      "step": 6440
    },
    {
      "epoch": 3.3778825995807127,
      "grad_norm": 0.07515950500965118,
      "learning_rate": 0.0009856220739333837,
      "loss": 0.3297,
      "num_input_tokens_seen": 4229296,
      "step": 6445
    },
    {
      "epoch": 3.380503144654088,
      "grad_norm": 0.08621098101139069,
      "learning_rate": 0.000985567576345091,
      "loss": 0.5443,
      "num_input_tokens_seen": 4232016,
      "step": 6450
    },
    {
      "epoch": 3.3831236897274635,
      "grad_norm": 0.07082358747720718,
      "learning_rate": 0.0009855129771816006,
      "loss": 0.3876,
      "num_input_tokens_seen": 4235248,
      "step": 6455
    },
    {
      "epoch": 3.3857442348008386,
      "grad_norm": 0.08299413323402405,
      "learning_rate": 0.0009854582764543347,
      "loss": 0.4844,
      "num_input_tokens_seen": 4238544,
      "step": 6460
    },
    {
      "epoch": 3.388364779874214,
      "grad_norm": 0.07834932208061218,
      "learning_rate": 0.0009854034741747356,
      "loss": 0.5324,
      "num_input_tokens_seen": 4241648,
      "step": 6465
    },
    {
      "epoch": 3.390985324947589,
      "grad_norm": 0.030766509473323822,
      "learning_rate": 0.0009853485703542675,
      "loss": 0.5099,
      "num_input_tokens_seen": 4245520,
      "step": 6470
    },
    {
      "epoch": 3.3936058700209646,
      "grad_norm": 0.09619515389204025,
      "learning_rate": 0.0009852935650044158,
      "loss": 0.5013,
      "num_input_tokens_seen": 4248400,
      "step": 6475
    },
    {
      "epoch": 3.3962264150943398,
      "grad_norm": 0.044642284512519836,
      "learning_rate": 0.0009852384581366866,
      "loss": 0.4286,
      "num_input_tokens_seen": 4251568,
      "step": 6480
    },
    {
      "epoch": 3.398846960167715,
      "grad_norm": 0.029566679149866104,
      "learning_rate": 0.000985183249762608,
      "loss": 0.45,
      "num_input_tokens_seen": 4255888,
      "step": 6485
    },
    {
      "epoch": 3.40146750524109,
      "grad_norm": 0.07877328246831894,
      "learning_rate": 0.000985127939893729,
      "loss": 0.5765,
      "num_input_tokens_seen": 4258960,
      "step": 6490
    },
    {
      "epoch": 3.4040880503144653,
      "grad_norm": 0.11273638159036636,
      "learning_rate": 0.0009850725285416194,
      "loss": 0.4781,
      "num_input_tokens_seen": 4262256,
      "step": 6495
    },
    {
      "epoch": 3.4067085953878404,
      "grad_norm": 0.033164434134960175,
      "learning_rate": 0.0009850170157178707,
      "loss": 0.4331,
      "num_input_tokens_seen": 4266352,
      "step": 6500
    },
    {
      "epoch": 3.409329140461216,
      "grad_norm": 0.06145094707608223,
      "learning_rate": 0.000984961401434096,
      "loss": 0.4183,
      "num_input_tokens_seen": 4269136,
      "step": 6505
    },
    {
      "epoch": 3.411949685534591,
      "grad_norm": 0.06421760469675064,
      "learning_rate": 0.0009849056857019285,
      "loss": 0.398,
      "num_input_tokens_seen": 4271536,
      "step": 6510
    },
    {
      "epoch": 3.4145702306079664,
      "grad_norm": 0.07837975025177002,
      "learning_rate": 0.0009848498685330238,
      "loss": 0.4255,
      "num_input_tokens_seen": 4275248,
      "step": 6515
    },
    {
      "epoch": 3.4171907756813416,
      "grad_norm": 0.04818689823150635,
      "learning_rate": 0.000984793949939058,
      "loss": 0.4631,
      "num_input_tokens_seen": 4278608,
      "step": 6520
    },
    {
      "epoch": 3.419811320754717,
      "grad_norm": 0.07179341465234756,
      "learning_rate": 0.0009847379299317287,
      "loss": 0.5986,
      "num_input_tokens_seen": 4282064,
      "step": 6525
    },
    {
      "epoch": 3.4224318658280923,
      "grad_norm": 0.08149474859237671,
      "learning_rate": 0.0009846818085227549,
      "loss": 0.4412,
      "num_input_tokens_seen": 4285872,
      "step": 6530
    },
    {
      "epoch": 3.4250524109014675,
      "grad_norm": 0.04601531848311424,
      "learning_rate": 0.000984625585723876,
      "loss": 0.3896,
      "num_input_tokens_seen": 4288816,
      "step": 6535
    },
    {
      "epoch": 3.4276729559748427,
      "grad_norm": 0.059998370707035065,
      "learning_rate": 0.0009845692615468536,
      "loss": 0.5,
      "num_input_tokens_seen": 4292304,
      "step": 6540
    },
    {
      "epoch": 3.430293501048218,
      "grad_norm": 0.06937631219625473,
      "learning_rate": 0.00098451283600347,
      "loss": 0.5068,
      "num_input_tokens_seen": 4295504,
      "step": 6545
    },
    {
      "epoch": 3.4329140461215935,
      "grad_norm": 0.05399297550320625,
      "learning_rate": 0.0009844563091055286,
      "loss": 0.4462,
      "num_input_tokens_seen": 4298160,
      "step": 6550
    },
    {
      "epoch": 3.4355345911949686,
      "grad_norm": 0.09180442988872528,
      "learning_rate": 0.0009843996808648542,
      "loss": 0.4583,
      "num_input_tokens_seen": 4300944,
      "step": 6555
    },
    {
      "epoch": 3.438155136268344,
      "grad_norm": 0.10881935060024261,
      "learning_rate": 0.000984342951293293,
      "loss": 0.4795,
      "num_input_tokens_seen": 4303600,
      "step": 6560
    },
    {
      "epoch": 3.440775681341719,
      "grad_norm": 0.09409485757350922,
      "learning_rate": 0.0009842861204027121,
      "loss": 0.3742,
      "num_input_tokens_seen": 4306256,
      "step": 6565
    },
    {
      "epoch": 3.4433962264150946,
      "grad_norm": 0.08831801265478134,
      "learning_rate": 0.0009842291882049999,
      "loss": 0.4483,
      "num_input_tokens_seen": 4309264,
      "step": 6570
    },
    {
      "epoch": 3.4460167714884697,
      "grad_norm": 0.0827176570892334,
      "learning_rate": 0.0009841721547120658,
      "loss": 0.5084,
      "num_input_tokens_seen": 4312176,
      "step": 6575
    },
    {
      "epoch": 3.448637316561845,
      "grad_norm": 0.048522599041461945,
      "learning_rate": 0.0009841150199358408,
      "loss": 0.5536,
      "num_input_tokens_seen": 4317488,
      "step": 6580
    },
    {
      "epoch": 3.45125786163522,
      "grad_norm": 0.0852184072136879,
      "learning_rate": 0.0009840577838882765,
      "loss": 0.3655,
      "num_input_tokens_seen": 4320592,
      "step": 6585
    },
    {
      "epoch": 3.4538784067085953,
      "grad_norm": 0.07869058847427368,
      "learning_rate": 0.0009840004465813464,
      "loss": 0.491,
      "num_input_tokens_seen": 4323632,
      "step": 6590
    },
    {
      "epoch": 3.4564989517819704,
      "grad_norm": 0.06963309645652771,
      "learning_rate": 0.0009839430080270445,
      "loss": 0.3288,
      "num_input_tokens_seen": 4326576,
      "step": 6595
    },
    {
      "epoch": 3.459119496855346,
      "grad_norm": 0.15572096407413483,
      "learning_rate": 0.0009838854682373865,
      "loss": 0.5004,
      "num_input_tokens_seen": 4329424,
      "step": 6600
    },
    {
      "epoch": 3.461740041928721,
      "grad_norm": 0.06105046346783638,
      "learning_rate": 0.000983827827224409,
      "loss": 0.6587,
      "num_input_tokens_seen": 4332656,
      "step": 6605
    },
    {
      "epoch": 3.4643605870020964,
      "grad_norm": 0.15038542449474335,
      "learning_rate": 0.0009837700850001698,
      "loss": 0.5289,
      "num_input_tokens_seen": 4335536,
      "step": 6610
    },
    {
      "epoch": 3.4669811320754715,
      "grad_norm": 0.0569637231528759,
      "learning_rate": 0.000983712241576748,
      "loss": 0.5271,
      "num_input_tokens_seen": 4339248,
      "step": 6615
    },
    {
      "epoch": 3.469601677148847,
      "grad_norm": 0.05455828458070755,
      "learning_rate": 0.000983654296966244,
      "loss": 0.5027,
      "num_input_tokens_seen": 4342320,
      "step": 6620
    },
    {
      "epoch": 3.4722222222222223,
      "grad_norm": 0.057639751583337784,
      "learning_rate": 0.0009835962511807786,
      "loss": 0.4592,
      "num_input_tokens_seen": 4346256,
      "step": 6625
    },
    {
      "epoch": 3.4748427672955975,
      "grad_norm": 0.0656166523694992,
      "learning_rate": 0.0009835381042324948,
      "loss": 0.578,
      "num_input_tokens_seen": 4349872,
      "step": 6630
    },
    {
      "epoch": 3.4774633123689727,
      "grad_norm": 0.07241401821374893,
      "learning_rate": 0.0009834798561335558,
      "loss": 0.4631,
      "num_input_tokens_seen": 4352368,
      "step": 6635
    },
    {
      "epoch": 3.480083857442348,
      "grad_norm": 0.08172445744276047,
      "learning_rate": 0.000983421506896147,
      "loss": 0.4844,
      "num_input_tokens_seen": 4356880,
      "step": 6640
    },
    {
      "epoch": 3.4827044025157234,
      "grad_norm": 0.04366561397910118,
      "learning_rate": 0.000983363056532474,
      "loss": 0.3171,
      "num_input_tokens_seen": 4360688,
      "step": 6645
    },
    {
      "epoch": 3.4853249475890986,
      "grad_norm": 0.06446901708841324,
      "learning_rate": 0.000983304505054764,
      "loss": 0.4213,
      "num_input_tokens_seen": 4363856,
      "step": 6650
    },
    {
      "epoch": 3.487945492662474,
      "grad_norm": 0.044638216495513916,
      "learning_rate": 0.0009832458524752655,
      "loss": 0.437,
      "num_input_tokens_seen": 4366640,
      "step": 6655
    },
    {
      "epoch": 3.490566037735849,
      "grad_norm": 0.06541226804256439,
      "learning_rate": 0.0009831870988062476,
      "loss": 0.3838,
      "num_input_tokens_seen": 4369584,
      "step": 6660
    },
    {
      "epoch": 3.4931865828092246,
      "grad_norm": 0.06359349191188812,
      "learning_rate": 0.0009831282440600014,
      "loss": 0.5187,
      "num_input_tokens_seen": 4372752,
      "step": 6665
    },
    {
      "epoch": 3.4958071278825997,
      "grad_norm": 0.06069541722536087,
      "learning_rate": 0.0009830692882488383,
      "loss": 0.4882,
      "num_input_tokens_seen": 4375760,
      "step": 6670
    },
    {
      "epoch": 3.498427672955975,
      "grad_norm": 0.04880640655755997,
      "learning_rate": 0.000983010231385091,
      "loss": 0.4546,
      "num_input_tokens_seen": 4379248,
      "step": 6675
    },
    {
      "epoch": 3.50104821802935,
      "grad_norm": 0.05629967153072357,
      "learning_rate": 0.000982951073481114,
      "loss": 0.6621,
      "num_input_tokens_seen": 4382352,
      "step": 6680
    },
    {
      "epoch": 3.5036687631027252,
      "grad_norm": 0.06461659073829651,
      "learning_rate": 0.0009828918145492823,
      "loss": 0.5974,
      "num_input_tokens_seen": 4385968,
      "step": 6685
    },
    {
      "epoch": 3.5062893081761004,
      "grad_norm": 0.08345891535282135,
      "learning_rate": 0.000982832454601992,
      "loss": 0.5056,
      "num_input_tokens_seen": 4388720,
      "step": 6690
    },
    {
      "epoch": 3.508909853249476,
      "grad_norm": 0.07523252815008163,
      "learning_rate": 0.0009827729936516605,
      "loss": 0.4821,
      "num_input_tokens_seen": 4391568,
      "step": 6695
    },
    {
      "epoch": 3.511530398322851,
      "grad_norm": 0.10484689474105835,
      "learning_rate": 0.0009827134317107267,
      "loss": 0.5226,
      "num_input_tokens_seen": 4394256,
      "step": 6700
    },
    {
      "epoch": 3.5141509433962264,
      "grad_norm": 0.1272965520620346,
      "learning_rate": 0.0009826537687916501,
      "loss": 0.4939,
      "num_input_tokens_seen": 4396816,
      "step": 6705
    },
    {
      "epoch": 3.5167714884696015,
      "grad_norm": 0.1224726140499115,
      "learning_rate": 0.0009825940049069113,
      "loss": 0.5499,
      "num_input_tokens_seen": 4399952,
      "step": 6710
    },
    {
      "epoch": 3.519392033542977,
      "grad_norm": 0.04336291924118996,
      "learning_rate": 0.0009825341400690126,
      "loss": 0.4446,
      "num_input_tokens_seen": 4403440,
      "step": 6715
    },
    {
      "epoch": 3.5220125786163523,
      "grad_norm": 0.056707050651311874,
      "learning_rate": 0.0009824741742904767,
      "loss": 0.5439,
      "num_input_tokens_seen": 4406736,
      "step": 6720
    },
    {
      "epoch": 3.5246331236897275,
      "grad_norm": 0.04100145772099495,
      "learning_rate": 0.000982414107583848,
      "loss": 0.4147,
      "num_input_tokens_seen": 4410640,
      "step": 6725
    },
    {
      "epoch": 3.5272536687631026,
      "grad_norm": 0.0845390260219574,
      "learning_rate": 0.0009823539399616914,
      "loss": 0.3941,
      "num_input_tokens_seen": 4414096,
      "step": 6730
    },
    {
      "epoch": 3.529874213836478,
      "grad_norm": 0.06631770730018616,
      "learning_rate": 0.0009822936714365938,
      "loss": 0.4394,
      "num_input_tokens_seen": 4416976,
      "step": 6735
    },
    {
      "epoch": 3.532494758909853,
      "grad_norm": 0.04327334836125374,
      "learning_rate": 0.0009822333020211623,
      "loss": 0.4453,
      "num_input_tokens_seen": 4419792,
      "step": 6740
    },
    {
      "epoch": 3.5351153039832286,
      "grad_norm": 0.047918714582920074,
      "learning_rate": 0.0009821728317280256,
      "loss": 0.4935,
      "num_input_tokens_seen": 4422928,
      "step": 6745
    },
    {
      "epoch": 3.5377358490566038,
      "grad_norm": 0.06537605822086334,
      "learning_rate": 0.0009821122605698336,
      "loss": 0.6225,
      "num_input_tokens_seen": 4426576,
      "step": 6750
    },
    {
      "epoch": 3.540356394129979,
      "grad_norm": 0.0503653809428215,
      "learning_rate": 0.0009820515885592567,
      "loss": 0.5129,
      "num_input_tokens_seen": 4431408,
      "step": 6755
    },
    {
      "epoch": 3.5429769392033545,
      "grad_norm": 0.09065807610750198,
      "learning_rate": 0.0009819908157089872,
      "loss": 0.5508,
      "num_input_tokens_seen": 4434352,
      "step": 6760
    },
    {
      "epoch": 3.5455974842767297,
      "grad_norm": 0.05773671343922615,
      "learning_rate": 0.0009819299420317379,
      "loss": 0.4697,
      "num_input_tokens_seen": 4437488,
      "step": 6765
    },
    {
      "epoch": 3.548218029350105,
      "grad_norm": 0.12570686638355255,
      "learning_rate": 0.0009818689675402427,
      "loss": 0.3848,
      "num_input_tokens_seen": 4440208,
      "step": 6770
    },
    {
      "epoch": 3.55083857442348,
      "grad_norm": 0.088565394282341,
      "learning_rate": 0.000981807892247257,
      "loss": 0.5227,
      "num_input_tokens_seen": 4443024,
      "step": 6775
    },
    {
      "epoch": 3.5534591194968552,
      "grad_norm": 0.08045163005590439,
      "learning_rate": 0.0009817467161655571,
      "loss": 0.6095,
      "num_input_tokens_seen": 4446512,
      "step": 6780
    },
    {
      "epoch": 3.5560796645702304,
      "grad_norm": 0.09638141840696335,
      "learning_rate": 0.0009816854393079402,
      "loss": 0.4567,
      "num_input_tokens_seen": 4449360,
      "step": 6785
    },
    {
      "epoch": 3.558700209643606,
      "grad_norm": 0.05055395886301994,
      "learning_rate": 0.0009816240616872247,
      "loss": 0.4631,
      "num_input_tokens_seen": 4451728,
      "step": 6790
    },
    {
      "epoch": 3.561320754716981,
      "grad_norm": 0.06218983605504036,
      "learning_rate": 0.0009815625833162502,
      "loss": 0.4278,
      "num_input_tokens_seen": 4455568,
      "step": 6795
    },
    {
      "epoch": 3.5639412997903563,
      "grad_norm": 0.0949101522564888,
      "learning_rate": 0.0009815010042078772,
      "loss": 0.4431,
      "num_input_tokens_seen": 4458768,
      "step": 6800
    },
    {
      "epoch": 3.5665618448637315,
      "grad_norm": 0.04943341016769409,
      "learning_rate": 0.0009814393243749873,
      "loss": 0.548,
      "num_input_tokens_seen": 4461648,
      "step": 6805
    },
    {
      "epoch": 3.569182389937107,
      "grad_norm": 0.08038156479597092,
      "learning_rate": 0.0009813775438304835,
      "loss": 0.5174,
      "num_input_tokens_seen": 4465232,
      "step": 6810
    },
    {
      "epoch": 3.5718029350104823,
      "grad_norm": 0.09255526959896088,
      "learning_rate": 0.0009813156625872893,
      "loss": 0.4762,
      "num_input_tokens_seen": 4467984,
      "step": 6815
    },
    {
      "epoch": 3.5744234800838575,
      "grad_norm": 0.06546521931886673,
      "learning_rate": 0.0009812536806583494,
      "loss": 0.4,
      "num_input_tokens_seen": 4471088,
      "step": 6820
    },
    {
      "epoch": 3.5770440251572326,
      "grad_norm": 0.06908613443374634,
      "learning_rate": 0.0009811915980566302,
      "loss": 0.5764,
      "num_input_tokens_seen": 4474128,
      "step": 6825
    },
    {
      "epoch": 3.579664570230608,
      "grad_norm": 0.04788507893681526,
      "learning_rate": 0.0009811294147951182,
      "loss": 0.6638,
      "num_input_tokens_seen": 4478160,
      "step": 6830
    },
    {
      "epoch": 3.582285115303983,
      "grad_norm": 0.057092487812042236,
      "learning_rate": 0.000981067130886822,
      "loss": 0.5028,
      "num_input_tokens_seen": 4480784,
      "step": 6835
    },
    {
      "epoch": 3.5849056603773586,
      "grad_norm": 0.09682144969701767,
      "learning_rate": 0.00098100474634477,
      "loss": 0.5785,
      "num_input_tokens_seen": 4483632,
      "step": 6840
    },
    {
      "epoch": 3.5875262054507338,
      "grad_norm": 0.06121238321065903,
      "learning_rate": 0.0009809422611820127,
      "loss": 0.4875,
      "num_input_tokens_seen": 4486448,
      "step": 6845
    },
    {
      "epoch": 3.590146750524109,
      "grad_norm": 0.08741127699613571,
      "learning_rate": 0.0009808796754116212,
      "loss": 0.3643,
      "num_input_tokens_seen": 4490192,
      "step": 6850
    },
    {
      "epoch": 3.5927672955974845,
      "grad_norm": 0.12000849097967148,
      "learning_rate": 0.0009808169890466879,
      "loss": 0.5529,
      "num_input_tokens_seen": 4492880,
      "step": 6855
    },
    {
      "epoch": 3.5953878406708597,
      "grad_norm": 0.08143562823534012,
      "learning_rate": 0.000980754202100326,
      "loss": 0.4453,
      "num_input_tokens_seen": 4495952,
      "step": 6860
    },
    {
      "epoch": 3.598008385744235,
      "grad_norm": 0.06172263249754906,
      "learning_rate": 0.0009806913145856695,
      "loss": 0.5019,
      "num_input_tokens_seen": 4498512,
      "step": 6865
    },
    {
      "epoch": 3.60062893081761,
      "grad_norm": 0.09012431651353836,
      "learning_rate": 0.0009806283265158741,
      "loss": 0.4611,
      "num_input_tokens_seen": 4503152,
      "step": 6870
    },
    {
      "epoch": 3.603249475890985,
      "grad_norm": 0.08981537818908691,
      "learning_rate": 0.0009805652379041162,
      "loss": 0.5136,
      "num_input_tokens_seen": 4506128,
      "step": 6875
    },
    {
      "epoch": 3.6058700209643604,
      "grad_norm": 0.09575660526752472,
      "learning_rate": 0.000980502048763593,
      "loss": 0.4841,
      "num_input_tokens_seen": 4509776,
      "step": 6880
    },
    {
      "epoch": 3.608490566037736,
      "grad_norm": 0.08150574564933777,
      "learning_rate": 0.0009804387591075233,
      "loss": 0.5855,
      "num_input_tokens_seen": 4513136,
      "step": 6885
    },
    {
      "epoch": 3.611111111111111,
      "grad_norm": 0.049666717648506165,
      "learning_rate": 0.000980375368949146,
      "loss": 0.4518,
      "num_input_tokens_seen": 4516176,
      "step": 6890
    },
    {
      "epoch": 3.6137316561844863,
      "grad_norm": 0.09842424839735031,
      "learning_rate": 0.0009803118783017221,
      "loss": 0.5284,
      "num_input_tokens_seen": 4519120,
      "step": 6895
    },
    {
      "epoch": 3.6163522012578615,
      "grad_norm": 0.09254894405603409,
      "learning_rate": 0.0009802482871785329,
      "loss": 0.4313,
      "num_input_tokens_seen": 4522352,
      "step": 6900
    },
    {
      "epoch": 3.618972746331237,
      "grad_norm": 0.0817597508430481,
      "learning_rate": 0.000980184595592881,
      "loss": 0.5185,
      "num_input_tokens_seen": 4525104,
      "step": 6905
    },
    {
      "epoch": 3.6215932914046123,
      "grad_norm": 0.03965696319937706,
      "learning_rate": 0.00098012080355809,
      "loss": 0.5192,
      "num_input_tokens_seen": 4528528,
      "step": 6910
    },
    {
      "epoch": 3.6242138364779874,
      "grad_norm": 0.08468256145715714,
      "learning_rate": 0.0009800569110875043,
      "loss": 0.367,
      "num_input_tokens_seen": 4531312,
      "step": 6915
    },
    {
      "epoch": 3.6268343815513626,
      "grad_norm": 0.12302392721176147,
      "learning_rate": 0.0009799929181944895,
      "loss": 0.6289,
      "num_input_tokens_seen": 4534128,
      "step": 6920
    },
    {
      "epoch": 3.629454926624738,
      "grad_norm": 0.06291170418262482,
      "learning_rate": 0.0009799288248924325,
      "loss": 0.5602,
      "num_input_tokens_seen": 4537168,
      "step": 6925
    },
    {
      "epoch": 3.632075471698113,
      "grad_norm": 0.060635387897491455,
      "learning_rate": 0.0009798646311947404,
      "loss": 0.7048,
      "num_input_tokens_seen": 4540464,
      "step": 6930
    },
    {
      "epoch": 3.6346960167714886,
      "grad_norm": 0.03603097423911095,
      "learning_rate": 0.0009798003371148422,
      "loss": 0.4248,
      "num_input_tokens_seen": 4544208,
      "step": 6935
    },
    {
      "epoch": 3.6373165618448637,
      "grad_norm": 0.2441805750131607,
      "learning_rate": 0.0009797359426661873,
      "loss": 0.4156,
      "num_input_tokens_seen": 4547440,
      "step": 6940
    },
    {
      "epoch": 3.639937106918239,
      "grad_norm": 0.1446630209684372,
      "learning_rate": 0.0009796714478622463,
      "loss": 0.4815,
      "num_input_tokens_seen": 4550512,
      "step": 6945
    },
    {
      "epoch": 3.6425576519916145,
      "grad_norm": 0.0727173313498497,
      "learning_rate": 0.0009796068527165107,
      "loss": 0.6932,
      "num_input_tokens_seen": 4553168,
      "step": 6950
    },
    {
      "epoch": 3.6451781970649897,
      "grad_norm": 0.04806964844465256,
      "learning_rate": 0.0009795421572424935,
      "loss": 0.4807,
      "num_input_tokens_seen": 4556720,
      "step": 6955
    },
    {
      "epoch": 3.647798742138365,
      "grad_norm": 0.06833366304636002,
      "learning_rate": 0.0009794773614537275,
      "loss": 0.6403,
      "num_input_tokens_seen": 4560432,
      "step": 6960
    },
    {
      "epoch": 3.65041928721174,
      "grad_norm": 0.037446100264787674,
      "learning_rate": 0.0009794124653637677,
      "loss": 0.5196,
      "num_input_tokens_seen": 4563792,
      "step": 6965
    },
    {
      "epoch": 3.653039832285115,
      "grad_norm": 0.07078766822814941,
      "learning_rate": 0.00097934746898619,
      "loss": 0.4562,
      "num_input_tokens_seen": 4568144,
      "step": 6970
    },
    {
      "epoch": 3.6556603773584904,
      "grad_norm": 0.06855784356594086,
      "learning_rate": 0.00097928237233459,
      "loss": 0.4413,
      "num_input_tokens_seen": 4570448,
      "step": 6975
    },
    {
      "epoch": 3.658280922431866,
      "grad_norm": 0.09780314564704895,
      "learning_rate": 0.0009792171754225859,
      "loss": 0.4239,
      "num_input_tokens_seen": 4573232,
      "step": 6980
    },
    {
      "epoch": 3.660901467505241,
      "grad_norm": 0.13756880164146423,
      "learning_rate": 0.0009791518782638158,
      "loss": 0.5465,
      "num_input_tokens_seen": 4576784,
      "step": 6985
    },
    {
      "epoch": 3.6635220125786163,
      "grad_norm": 0.05135965719819069,
      "learning_rate": 0.0009790864808719392,
      "loss": 0.5545,
      "num_input_tokens_seen": 4580592,
      "step": 6990
    },
    {
      "epoch": 3.6661425576519915,
      "grad_norm": 0.06700523942708969,
      "learning_rate": 0.0009790209832606365,
      "loss": 0.4957,
      "num_input_tokens_seen": 4583792,
      "step": 6995
    },
    {
      "epoch": 3.668763102725367,
      "grad_norm": 0.12560361623764038,
      "learning_rate": 0.000978955385443609,
      "loss": 0.6063,
      "num_input_tokens_seen": 4586896,
      "step": 7000
    },
    {
      "epoch": 3.6713836477987423,
      "grad_norm": 0.03710412606596947,
      "learning_rate": 0.0009788896874345792,
      "loss": 0.4269,
      "num_input_tokens_seen": 4590096,
      "step": 7005
    },
    {
      "epoch": 3.6740041928721174,
      "grad_norm": 0.053963303565979004,
      "learning_rate": 0.0009788238892472904,
      "loss": 0.3936,
      "num_input_tokens_seen": 4592976,
      "step": 7010
    },
    {
      "epoch": 3.6766247379454926,
      "grad_norm": 0.05807705596089363,
      "learning_rate": 0.0009787579908955063,
      "loss": 0.5468,
      "num_input_tokens_seen": 4595664,
      "step": 7015
    },
    {
      "epoch": 3.6792452830188678,
      "grad_norm": 0.09149223566055298,
      "learning_rate": 0.0009786919923930127,
      "loss": 0.5811,
      "num_input_tokens_seen": 4598320,
      "step": 7020
    },
    {
      "epoch": 3.681865828092243,
      "grad_norm": 0.04388820752501488,
      "learning_rate": 0.0009786258937536155,
      "loss": 0.3349,
      "num_input_tokens_seen": 4604976,
      "step": 7025
    },
    {
      "epoch": 3.6844863731656186,
      "grad_norm": 0.04964454472064972,
      "learning_rate": 0.0009785596949911418,
      "loss": 0.4485,
      "num_input_tokens_seen": 4608528,
      "step": 7030
    },
    {
      "epoch": 3.6871069182389937,
      "grad_norm": 0.06511545926332474,
      "learning_rate": 0.0009784933961194395,
      "loss": 0.4211,
      "num_input_tokens_seen": 4611536,
      "step": 7035
    },
    {
      "epoch": 3.689727463312369,
      "grad_norm": 0.06266719847917557,
      "learning_rate": 0.0009784269971523777,
      "loss": 0.4926,
      "num_input_tokens_seen": 4614544,
      "step": 7040
    },
    {
      "epoch": 3.6923480083857445,
      "grad_norm": 0.08038856834173203,
      "learning_rate": 0.0009783604981038463,
      "loss": 0.4422,
      "num_input_tokens_seen": 4617424,
      "step": 7045
    },
    {
      "epoch": 3.6949685534591197,
      "grad_norm": 0.07461787015199661,
      "learning_rate": 0.000978293898987756,
      "loss": 0.3539,
      "num_input_tokens_seen": 4620112,
      "step": 7050
    },
    {
      "epoch": 3.697589098532495,
      "grad_norm": 0.04599478468298912,
      "learning_rate": 0.000978227199818039,
      "loss": 0.5453,
      "num_input_tokens_seen": 4623888,
      "step": 7055
    },
    {
      "epoch": 3.70020964360587,
      "grad_norm": 0.05690406262874603,
      "learning_rate": 0.0009781604006086474,
      "loss": 0.5104,
      "num_input_tokens_seen": 4627696,
      "step": 7060
    },
    {
      "epoch": 3.702830188679245,
      "grad_norm": 0.04103710874915123,
      "learning_rate": 0.0009780935013735553,
      "loss": 0.4547,
      "num_input_tokens_seen": 4630288,
      "step": 7065
    },
    {
      "epoch": 3.7054507337526204,
      "grad_norm": 0.08971294015645981,
      "learning_rate": 0.0009780265021267572,
      "loss": 0.5234,
      "num_input_tokens_seen": 4633168,
      "step": 7070
    },
    {
      "epoch": 3.708071278825996,
      "grad_norm": 0.10105282068252563,
      "learning_rate": 0.0009779594028822682,
      "loss": 0.5501,
      "num_input_tokens_seen": 4635984,
      "step": 7075
    },
    {
      "epoch": 3.710691823899371,
      "grad_norm": 0.15629461407661438,
      "learning_rate": 0.0009778922036541252,
      "loss": 0.5673,
      "num_input_tokens_seen": 4639312,
      "step": 7080
    },
    {
      "epoch": 3.7133123689727463,
      "grad_norm": 0.048013344407081604,
      "learning_rate": 0.0009778249044563852,
      "loss": 0.5153,
      "num_input_tokens_seen": 4642320,
      "step": 7085
    },
    {
      "epoch": 3.7159329140461215,
      "grad_norm": 0.040601011365652084,
      "learning_rate": 0.0009777575053031263,
      "loss": 0.5035,
      "num_input_tokens_seen": 4645040,
      "step": 7090
    },
    {
      "epoch": 3.718553459119497,
      "grad_norm": 0.0718008428812027,
      "learning_rate": 0.000977690006208448,
      "loss": 0.47,
      "num_input_tokens_seen": 4647856,
      "step": 7095
    },
    {
      "epoch": 3.7211740041928723,
      "grad_norm": 0.12449999898672104,
      "learning_rate": 0.0009776224071864703,
      "loss": 0.4566,
      "num_input_tokens_seen": 4651280,
      "step": 7100
    },
    {
      "epoch": 3.7237945492662474,
      "grad_norm": 0.08073833584785461,
      "learning_rate": 0.000977554708251334,
      "loss": 0.4048,
      "num_input_tokens_seen": 4654512,
      "step": 7105
    },
    {
      "epoch": 3.7264150943396226,
      "grad_norm": 0.10137613862752914,
      "learning_rate": 0.0009774869094172007,
      "loss": 0.4484,
      "num_input_tokens_seen": 4657456,
      "step": 7110
    },
    {
      "epoch": 3.7290356394129978,
      "grad_norm": 0.08884762227535248,
      "learning_rate": 0.0009774190106982537,
      "loss": 0.3472,
      "num_input_tokens_seen": 4660560,
      "step": 7115
    },
    {
      "epoch": 3.731656184486373,
      "grad_norm": 0.06653522700071335,
      "learning_rate": 0.0009773510121086962,
      "loss": 0.6076,
      "num_input_tokens_seen": 4663344,
      "step": 7120
    },
    {
      "epoch": 3.7342767295597485,
      "grad_norm": 0.10228036344051361,
      "learning_rate": 0.0009772829136627528,
      "loss": 0.5219,
      "num_input_tokens_seen": 4666384,
      "step": 7125
    },
    {
      "epoch": 3.7368972746331237,
      "grad_norm": 0.09509726613759995,
      "learning_rate": 0.0009772147153746691,
      "loss": 0.4324,
      "num_input_tokens_seen": 4668880,
      "step": 7130
    },
    {
      "epoch": 3.739517819706499,
      "grad_norm": 0.040239471942186356,
      "learning_rate": 0.0009771464172587112,
      "loss": 0.5404,
      "num_input_tokens_seen": 4672368,
      "step": 7135
    },
    {
      "epoch": 3.742138364779874,
      "grad_norm": 0.10679573565721512,
      "learning_rate": 0.0009770780193291667,
      "loss": 0.487,
      "num_input_tokens_seen": 4676368,
      "step": 7140
    },
    {
      "epoch": 3.7447589098532497,
      "grad_norm": 0.13020244240760803,
      "learning_rate": 0.000977009521600343,
      "loss": 0.4239,
      "num_input_tokens_seen": 4679632,
      "step": 7145
    },
    {
      "epoch": 3.747379454926625,
      "grad_norm": 0.05404502898454666,
      "learning_rate": 0.0009769409240865696,
      "loss": 0.4266,
      "num_input_tokens_seen": 4683120,
      "step": 7150
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.04366762936115265,
      "learning_rate": 0.0009768722268021959,
      "loss": 0.6072,
      "num_input_tokens_seen": 4687504,
      "step": 7155
    },
    {
      "epoch": 3.752620545073375,
      "grad_norm": 0.041065823286771774,
      "learning_rate": 0.000976803429761593,
      "loss": 0.4183,
      "num_input_tokens_seen": 4690448,
      "step": 7160
    },
    {
      "epoch": 3.7552410901467503,
      "grad_norm": 0.07383816689252853,
      "learning_rate": 0.000976734532979152,
      "loss": 0.5099,
      "num_input_tokens_seen": 4693104,
      "step": 7165
    },
    {
      "epoch": 3.757861635220126,
      "grad_norm": 0.04911065846681595,
      "learning_rate": 0.000976665536469286,
      "loss": 0.3278,
      "num_input_tokens_seen": 4696080,
      "step": 7170
    },
    {
      "epoch": 3.760482180293501,
      "grad_norm": 0.07658332586288452,
      "learning_rate": 0.0009765964402464276,
      "loss": 0.4857,
      "num_input_tokens_seen": 4698416,
      "step": 7175
    },
    {
      "epoch": 3.7631027253668763,
      "grad_norm": 0.08111689984798431,
      "learning_rate": 0.0009765272443250312,
      "loss": 0.4556,
      "num_input_tokens_seen": 4701072,
      "step": 7180
    },
    {
      "epoch": 3.7657232704402515,
      "grad_norm": 0.08101177960634232,
      "learning_rate": 0.0009764579487195717,
      "loss": 0.5353,
      "num_input_tokens_seen": 4703696,
      "step": 7185
    },
    {
      "epoch": 3.768343815513627,
      "grad_norm": 0.08083347976207733,
      "learning_rate": 0.0009763885534445452,
      "loss": 0.4002,
      "num_input_tokens_seen": 4706288,
      "step": 7190
    },
    {
      "epoch": 3.7709643605870022,
      "grad_norm": 0.07696112990379333,
      "learning_rate": 0.0009763190585144682,
      "loss": 0.5387,
      "num_input_tokens_seen": 4709040,
      "step": 7195
    },
    {
      "epoch": 3.7735849056603774,
      "grad_norm": 0.06290184706449509,
      "learning_rate": 0.0009762494639438783,
      "loss": 0.4739,
      "num_input_tokens_seen": 4712944,
      "step": 7200
    },
    {
      "epoch": 3.7762054507337526,
      "grad_norm": 0.061775051057338715,
      "learning_rate": 0.0009761797697473339,
      "loss": 0.4212,
      "num_input_tokens_seen": 4715664,
      "step": 7205
    },
    {
      "epoch": 3.7788259958071277,
      "grad_norm": 0.12736667692661285,
      "learning_rate": 0.0009761099759394142,
      "loss": 0.4378,
      "num_input_tokens_seen": 4718544,
      "step": 7210
    },
    {
      "epoch": 3.781446540880503,
      "grad_norm": 0.05649154633283615,
      "learning_rate": 0.0009760400825347194,
      "loss": 0.4733,
      "num_input_tokens_seen": 4721584,
      "step": 7215
    },
    {
      "epoch": 3.7840670859538785,
      "grad_norm": 0.07581710070371628,
      "learning_rate": 0.00097597008954787,
      "loss": 0.5831,
      "num_input_tokens_seen": 4724720,
      "step": 7220
    },
    {
      "epoch": 3.7866876310272537,
      "grad_norm": 0.11438694596290588,
      "learning_rate": 0.0009758999969935083,
      "loss": 0.4852,
      "num_input_tokens_seen": 4727696,
      "step": 7225
    },
    {
      "epoch": 3.789308176100629,
      "grad_norm": 0.07232148200273514,
      "learning_rate": 0.0009758298048862965,
      "loss": 0.5015,
      "num_input_tokens_seen": 4730832,
      "step": 7230
    },
    {
      "epoch": 3.791928721174004,
      "grad_norm": 0.0634651780128479,
      "learning_rate": 0.0009757595132409181,
      "loss": 0.5301,
      "num_input_tokens_seen": 4733456,
      "step": 7235
    },
    {
      "epoch": 3.7945492662473796,
      "grad_norm": 0.04844992607831955,
      "learning_rate": 0.0009756891220720771,
      "loss": 0.5112,
      "num_input_tokens_seen": 4737008,
      "step": 7240
    },
    {
      "epoch": 3.797169811320755,
      "grad_norm": 0.04687201604247093,
      "learning_rate": 0.0009756186313944988,
      "loss": 0.7281,
      "num_input_tokens_seen": 4740560,
      "step": 7245
    },
    {
      "epoch": 3.79979035639413,
      "grad_norm": 0.04226617515087128,
      "learning_rate": 0.0009755480412229291,
      "loss": 0.4494,
      "num_input_tokens_seen": 4743536,
      "step": 7250
    },
    {
      "epoch": 3.802410901467505,
      "grad_norm": 0.027124537155032158,
      "learning_rate": 0.0009754773515721343,
      "loss": 0.3888,
      "num_input_tokens_seen": 4748144,
      "step": 7255
    },
    {
      "epoch": 3.8050314465408803,
      "grad_norm": 0.05760376900434494,
      "learning_rate": 0.0009754065624569022,
      "loss": 0.5351,
      "num_input_tokens_seen": 4751248,
      "step": 7260
    },
    {
      "epoch": 3.8076519916142555,
      "grad_norm": 0.06122418865561485,
      "learning_rate": 0.000975335673892041,
      "loss": 0.5154,
      "num_input_tokens_seen": 4754832,
      "step": 7265
    },
    {
      "epoch": 3.810272536687631,
      "grad_norm": 0.05575285479426384,
      "learning_rate": 0.0009752646858923797,
      "loss": 0.6137,
      "num_input_tokens_seen": 4758224,
      "step": 7270
    },
    {
      "epoch": 3.8128930817610063,
      "grad_norm": 0.049608126282691956,
      "learning_rate": 0.0009751935984727683,
      "loss": 0.4844,
      "num_input_tokens_seen": 4761040,
      "step": 7275
    },
    {
      "epoch": 3.8155136268343814,
      "grad_norm": 0.07793494313955307,
      "learning_rate": 0.0009751224116480772,
      "loss": 0.496,
      "num_input_tokens_seen": 4763728,
      "step": 7280
    },
    {
      "epoch": 3.818134171907757,
      "grad_norm": 0.08670919388532639,
      "learning_rate": 0.0009750511254331982,
      "loss": 0.3836,
      "num_input_tokens_seen": 4766864,
      "step": 7285
    },
    {
      "epoch": 3.8207547169811322,
      "grad_norm": 0.17651288211345673,
      "learning_rate": 0.0009749797398430433,
      "loss": 0.6065,
      "num_input_tokens_seen": 4769872,
      "step": 7290
    },
    {
      "epoch": 3.8233752620545074,
      "grad_norm": 0.06143343821167946,
      "learning_rate": 0.0009749082548925459,
      "loss": 0.4818,
      "num_input_tokens_seen": 4772816,
      "step": 7295
    },
    {
      "epoch": 3.8259958071278826,
      "grad_norm": 0.04945135861635208,
      "learning_rate": 0.0009748366705966593,
      "loss": 0.5437,
      "num_input_tokens_seen": 4776336,
      "step": 7300
    },
    {
      "epoch": 3.8286163522012577,
      "grad_norm": 0.032635509967803955,
      "learning_rate": 0.0009747649869703588,
      "loss": 0.6174,
      "num_input_tokens_seen": 4780240,
      "step": 7305
    },
    {
      "epoch": 3.831236897274633,
      "grad_norm": 0.07811097055673599,
      "learning_rate": 0.0009746932040286391,
      "loss": 0.656,
      "num_input_tokens_seen": 4782544,
      "step": 7310
    },
    {
      "epoch": 3.8338574423480085,
      "grad_norm": 0.058647457510232925,
      "learning_rate": 0.000974621321786517,
      "loss": 0.4904,
      "num_input_tokens_seen": 4785104,
      "step": 7315
    },
    {
      "epoch": 3.8364779874213837,
      "grad_norm": 0.04214795306324959,
      "learning_rate": 0.000974549340259029,
      "loss": 0.4443,
      "num_input_tokens_seen": 4788016,
      "step": 7320
    },
    {
      "epoch": 3.839098532494759,
      "grad_norm": 0.07748743146657944,
      "learning_rate": 0.000974477259461233,
      "loss": 0.4936,
      "num_input_tokens_seen": 4790640,
      "step": 7325
    },
    {
      "epoch": 3.841719077568134,
      "grad_norm": 0.09159979224205017,
      "learning_rate": 0.0009744050794082074,
      "loss": 0.6167,
      "num_input_tokens_seen": 4793232,
      "step": 7330
    },
    {
      "epoch": 3.8443396226415096,
      "grad_norm": 0.07776422053575516,
      "learning_rate": 0.0009743328001150515,
      "loss": 0.5249,
      "num_input_tokens_seen": 4797136,
      "step": 7335
    },
    {
      "epoch": 3.846960167714885,
      "grad_norm": 0.08395322412252426,
      "learning_rate": 0.0009742604215968853,
      "loss": 0.7518,
      "num_input_tokens_seen": 4800784,
      "step": 7340
    },
    {
      "epoch": 3.84958071278826,
      "grad_norm": 0.037650834769010544,
      "learning_rate": 0.0009741879438688495,
      "loss": 0.3986,
      "num_input_tokens_seen": 4804432,
      "step": 7345
    },
    {
      "epoch": 3.852201257861635,
      "grad_norm": 0.05143586918711662,
      "learning_rate": 0.0009741153669461058,
      "loss": 0.5364,
      "num_input_tokens_seen": 4808208,
      "step": 7350
    },
    {
      "epoch": 3.8548218029350103,
      "grad_norm": 0.13788123428821564,
      "learning_rate": 0.0009740426908438362,
      "loss": 0.5783,
      "num_input_tokens_seen": 4811248,
      "step": 7355
    },
    {
      "epoch": 3.8574423480083855,
      "grad_norm": 0.10402606427669525,
      "learning_rate": 0.0009739699155772439,
      "loss": 0.5141,
      "num_input_tokens_seen": 4814352,
      "step": 7360
    },
    {
      "epoch": 3.860062893081761,
      "grad_norm": 0.05809265375137329,
      "learning_rate": 0.0009738970411615525,
      "loss": 0.5151,
      "num_input_tokens_seen": 4819152,
      "step": 7365
    },
    {
      "epoch": 3.8626834381551363,
      "grad_norm": 0.09705087542533875,
      "learning_rate": 0.0009738240676120067,
      "loss": 0.4211,
      "num_input_tokens_seen": 4822224,
      "step": 7370
    },
    {
      "epoch": 3.8653039832285114,
      "grad_norm": 0.05618216469883919,
      "learning_rate": 0.0009737509949438717,
      "loss": 0.5154,
      "num_input_tokens_seen": 4825648,
      "step": 7375
    },
    {
      "epoch": 3.867924528301887,
      "grad_norm": 0.03891489654779434,
      "learning_rate": 0.0009736778231724333,
      "loss": 0.3589,
      "num_input_tokens_seen": 4828816,
      "step": 7380
    },
    {
      "epoch": 3.870545073375262,
      "grad_norm": 0.10840354859828949,
      "learning_rate": 0.0009736045523129982,
      "loss": 0.4649,
      "num_input_tokens_seen": 4831408,
      "step": 7385
    },
    {
      "epoch": 3.8731656184486374,
      "grad_norm": 0.026401067152619362,
      "learning_rate": 0.0009735311823808938,
      "loss": 0.4465,
      "num_input_tokens_seen": 4834864,
      "step": 7390
    },
    {
      "epoch": 3.8757861635220126,
      "grad_norm": 0.06271278113126755,
      "learning_rate": 0.0009734577133914687,
      "loss": 0.5018,
      "num_input_tokens_seen": 4837552,
      "step": 7395
    },
    {
      "epoch": 3.8784067085953877,
      "grad_norm": 0.07769551128149033,
      "learning_rate": 0.0009733841453600914,
      "loss": 0.5003,
      "num_input_tokens_seen": 4840336,
      "step": 7400
    },
    {
      "epoch": 3.881027253668763,
      "grad_norm": 0.05443648621439934,
      "learning_rate": 0.0009733104783021515,
      "loss": 0.5549,
      "num_input_tokens_seen": 4843184,
      "step": 7405
    },
    {
      "epoch": 3.8836477987421385,
      "grad_norm": 0.06216144934296608,
      "learning_rate": 0.0009732367122330593,
      "loss": 0.5641,
      "num_input_tokens_seen": 4846576,
      "step": 7410
    },
    {
      "epoch": 3.8862683438155137,
      "grad_norm": 0.07755579799413681,
      "learning_rate": 0.0009731628471682459,
      "loss": 0.4779,
      "num_input_tokens_seen": 4849392,
      "step": 7415
    },
    {
      "epoch": 3.888888888888889,
      "grad_norm": 0.05462774261832237,
      "learning_rate": 0.000973088883123163,
      "loss": 0.3551,
      "num_input_tokens_seen": 4852752,
      "step": 7420
    },
    {
      "epoch": 3.891509433962264,
      "grad_norm": 0.04696907475590706,
      "learning_rate": 0.0009730148201132829,
      "loss": 0.4552,
      "num_input_tokens_seen": 4856880,
      "step": 7425
    },
    {
      "epoch": 3.8941299790356396,
      "grad_norm": 0.07692514359951019,
      "learning_rate": 0.0009729406581540991,
      "loss": 0.5308,
      "num_input_tokens_seen": 4859984,
      "step": 7430
    },
    {
      "epoch": 3.896750524109015,
      "grad_norm": 0.05762254446744919,
      "learning_rate": 0.0009728663972611251,
      "loss": 0.4205,
      "num_input_tokens_seen": 4862640,
      "step": 7435
    },
    {
      "epoch": 3.89937106918239,
      "grad_norm": 0.16748450696468353,
      "learning_rate": 0.0009727920374498955,
      "loss": 0.5686,
      "num_input_tokens_seen": 4865168,
      "step": 7440
    },
    {
      "epoch": 3.901991614255765,
      "grad_norm": 0.07273995131254196,
      "learning_rate": 0.0009727175787359656,
      "loss": 0.5183,
      "num_input_tokens_seen": 4869520,
      "step": 7445
    },
    {
      "epoch": 3.9046121593291403,
      "grad_norm": 0.05409722775220871,
      "learning_rate": 0.0009726430211349113,
      "loss": 0.4734,
      "num_input_tokens_seen": 4872944,
      "step": 7450
    },
    {
      "epoch": 3.9072327044025155,
      "grad_norm": 0.07219760119915009,
      "learning_rate": 0.0009725683646623291,
      "loss": 0.4332,
      "num_input_tokens_seen": 4876624,
      "step": 7455
    },
    {
      "epoch": 3.909853249475891,
      "grad_norm": 0.07802726328372955,
      "learning_rate": 0.0009724936093338365,
      "loss": 0.5054,
      "num_input_tokens_seen": 4879152,
      "step": 7460
    },
    {
      "epoch": 3.9124737945492662,
      "grad_norm": 0.04110787808895111,
      "learning_rate": 0.0009724187551650712,
      "loss": 0.4062,
      "num_input_tokens_seen": 4883760,
      "step": 7465
    },
    {
      "epoch": 3.9150943396226414,
      "grad_norm": 0.06406491249799728,
      "learning_rate": 0.0009723438021716919,
      "loss": 0.4551,
      "num_input_tokens_seen": 4886640,
      "step": 7470
    },
    {
      "epoch": 3.917714884696017,
      "grad_norm": 0.07340368628501892,
      "learning_rate": 0.0009722687503693782,
      "loss": 0.4298,
      "num_input_tokens_seen": 4890896,
      "step": 7475
    },
    {
      "epoch": 3.920335429769392,
      "grad_norm": 0.10477227717638016,
      "learning_rate": 0.0009721935997738296,
      "loss": 0.5254,
      "num_input_tokens_seen": 4893744,
      "step": 7480
    },
    {
      "epoch": 3.9229559748427674,
      "grad_norm": 0.07434996962547302,
      "learning_rate": 0.0009721183504007671,
      "loss": 0.6818,
      "num_input_tokens_seen": 4896240,
      "step": 7485
    },
    {
      "epoch": 3.9255765199161425,
      "grad_norm": 0.1041744202375412,
      "learning_rate": 0.0009720430022659319,
      "loss": 0.5041,
      "num_input_tokens_seen": 4899856,
      "step": 7490
    },
    {
      "epoch": 3.9281970649895177,
      "grad_norm": 0.06804025918245316,
      "learning_rate": 0.000971967555385086,
      "loss": 0.4355,
      "num_input_tokens_seen": 4903312,
      "step": 7495
    },
    {
      "epoch": 3.930817610062893,
      "grad_norm": 0.05479181185364723,
      "learning_rate": 0.000971892009774012,
      "loss": 0.4538,
      "num_input_tokens_seen": 4905744,
      "step": 7500
    },
    {
      "epoch": 3.9334381551362685,
      "grad_norm": 0.10255315899848938,
      "learning_rate": 0.0009718163654485133,
      "loss": 0.527,
      "num_input_tokens_seen": 4908368,
      "step": 7505
    },
    {
      "epoch": 3.9360587002096437,
      "grad_norm": 0.08437801897525787,
      "learning_rate": 0.0009717406224244136,
      "loss": 0.3989,
      "num_input_tokens_seen": 4912112,
      "step": 7510
    },
    {
      "epoch": 3.938679245283019,
      "grad_norm": 0.05578281357884407,
      "learning_rate": 0.0009716647807175575,
      "loss": 0.4849,
      "num_input_tokens_seen": 4915216,
      "step": 7515
    },
    {
      "epoch": 3.941299790356394,
      "grad_norm": 0.03687924146652222,
      "learning_rate": 0.0009715888403438105,
      "loss": 0.4512,
      "num_input_tokens_seen": 4918320,
      "step": 7520
    },
    {
      "epoch": 3.9439203354297696,
      "grad_norm": 0.06590384989976883,
      "learning_rate": 0.0009715128013190581,
      "loss": 0.4165,
      "num_input_tokens_seen": 4922384,
      "step": 7525
    },
    {
      "epoch": 3.9465408805031448,
      "grad_norm": 0.03904999792575836,
      "learning_rate": 0.0009714366636592069,
      "loss": 0.4813,
      "num_input_tokens_seen": 4925904,
      "step": 7530
    },
    {
      "epoch": 3.94916142557652,
      "grad_norm": 0.13936665654182434,
      "learning_rate": 0.0009713604273801844,
      "loss": 0.4142,
      "num_input_tokens_seen": 4928112,
      "step": 7535
    },
    {
      "epoch": 3.951781970649895,
      "grad_norm": 0.10731711238622665,
      "learning_rate": 0.0009712840924979378,
      "loss": 0.5249,
      "num_input_tokens_seen": 4931536,
      "step": 7540
    },
    {
      "epoch": 3.9544025157232703,
      "grad_norm": 0.04386769235134125,
      "learning_rate": 0.0009712076590284357,
      "loss": 0.4041,
      "num_input_tokens_seen": 4935184,
      "step": 7545
    },
    {
      "epoch": 3.9570230607966455,
      "grad_norm": 0.06904452294111252,
      "learning_rate": 0.0009711311269876674,
      "loss": 0.3646,
      "num_input_tokens_seen": 4938704,
      "step": 7550
    },
    {
      "epoch": 3.959643605870021,
      "grad_norm": 0.0636671632528305,
      "learning_rate": 0.0009710544963916421,
      "loss": 0.4853,
      "num_input_tokens_seen": 4941360,
      "step": 7555
    },
    {
      "epoch": 3.9622641509433962,
      "grad_norm": 0.07010387629270554,
      "learning_rate": 0.0009709777672563903,
      "loss": 0.5525,
      "num_input_tokens_seen": 4944656,
      "step": 7560
    },
    {
      "epoch": 3.9648846960167714,
      "grad_norm": 0.1356915980577469,
      "learning_rate": 0.0009709009395979628,
      "loss": 0.3954,
      "num_input_tokens_seen": 4947248,
      "step": 7565
    },
    {
      "epoch": 3.967505241090147,
      "grad_norm": 0.06004568561911583,
      "learning_rate": 0.0009708240134324311,
      "loss": 0.4622,
      "num_input_tokens_seen": 4950160,
      "step": 7570
    },
    {
      "epoch": 3.970125786163522,
      "grad_norm": 0.1177188828587532,
      "learning_rate": 0.0009707469887758871,
      "loss": 0.5405,
      "num_input_tokens_seen": 4953264,
      "step": 7575
    },
    {
      "epoch": 3.9727463312368974,
      "grad_norm": 0.06940729171037674,
      "learning_rate": 0.0009706698656444437,
      "loss": 0.5064,
      "num_input_tokens_seen": 4955760,
      "step": 7580
    },
    {
      "epoch": 3.9753668763102725,
      "grad_norm": 0.07689961045980453,
      "learning_rate": 0.000970592644054234,
      "loss": 0.492,
      "num_input_tokens_seen": 4961616,
      "step": 7585
    },
    {
      "epoch": 3.9779874213836477,
      "grad_norm": 0.11562493443489075,
      "learning_rate": 0.000970515324021412,
      "loss": 0.3304,
      "num_input_tokens_seen": 4964240,
      "step": 7590
    },
    {
      "epoch": 3.980607966457023,
      "grad_norm": 0.1178106963634491,
      "learning_rate": 0.0009704379055621523,
      "loss": 0.4226,
      "num_input_tokens_seen": 4968016,
      "step": 7595
    },
    {
      "epoch": 3.9832285115303985,
      "grad_norm": 0.040756937116384506,
      "learning_rate": 0.0009703603886926497,
      "loss": 0.4881,
      "num_input_tokens_seen": 4971952,
      "step": 7600
    },
    {
      "epoch": 3.9858490566037736,
      "grad_norm": 0.07656872272491455,
      "learning_rate": 0.0009702827734291198,
      "loss": 0.4993,
      "num_input_tokens_seen": 4975984,
      "step": 7605
    },
    {
      "epoch": 3.988469601677149,
      "grad_norm": 0.07673996686935425,
      "learning_rate": 0.0009702050597877992,
      "loss": 0.5278,
      "num_input_tokens_seen": 4978832,
      "step": 7610
    },
    {
      "epoch": 3.991090146750524,
      "grad_norm": 0.07053134590387344,
      "learning_rate": 0.0009701272477849444,
      "loss": 0.4106,
      "num_input_tokens_seen": 4981808,
      "step": 7615
    },
    {
      "epoch": 3.9937106918238996,
      "grad_norm": 0.053690992295742035,
      "learning_rate": 0.0009700493374368327,
      "loss": 0.6316,
      "num_input_tokens_seen": 4985072,
      "step": 7620
    },
    {
      "epoch": 3.9963312368972748,
      "grad_norm": 0.06899487227201462,
      "learning_rate": 0.0009699713287597624,
      "loss": 0.4145,
      "num_input_tokens_seen": 4987920,
      "step": 7625
    },
    {
      "epoch": 3.99895178197065,
      "grad_norm": 0.04470079019665718,
      "learning_rate": 0.0009698932217700518,
      "loss": 0.4402,
      "num_input_tokens_seen": 4990768,
      "step": 7630
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.4560425877571106,
      "eval_runtime": 13.3178,
      "eval_samples_per_second": 63.674,
      "eval_steps_per_second": 15.918,
      "num_input_tokens_seen": 4991472,
      "step": 7632
    },
    {
      "epoch": 4.001572327044025,
      "grad_norm": 0.0577692948281765,
      "learning_rate": 0.0009698150164840399,
      "loss": 0.5709,
      "num_input_tokens_seen": 4993136,
      "step": 7635
    },
    {
      "epoch": 4.0041928721174,
      "grad_norm": 0.06211331859230995,
      "learning_rate": 0.0009697367129180866,
      "loss": 0.4387,
      "num_input_tokens_seen": 4997680,
      "step": 7640
    },
    {
      "epoch": 4.006813417190775,
      "grad_norm": 0.05445408076047897,
      "learning_rate": 0.000969658311088572,
      "loss": 0.4625,
      "num_input_tokens_seen": 5000976,
      "step": 7645
    },
    {
      "epoch": 4.009433962264151,
      "grad_norm": 0.12457796931266785,
      "learning_rate": 0.0009695798110118969,
      "loss": 0.409,
      "num_input_tokens_seen": 5003664,
      "step": 7650
    },
    {
      "epoch": 4.012054507337526,
      "grad_norm": 0.05201869085431099,
      "learning_rate": 0.0009695012127044824,
      "loss": 0.4865,
      "num_input_tokens_seen": 5006832,
      "step": 7655
    },
    {
      "epoch": 4.014675052410902,
      "grad_norm": 0.07385282218456268,
      "learning_rate": 0.0009694225161827707,
      "loss": 0.4347,
      "num_input_tokens_seen": 5010512,
      "step": 7660
    },
    {
      "epoch": 4.017295597484277,
      "grad_norm": 0.05775127559900284,
      "learning_rate": 0.0009693437214632241,
      "loss": 0.5565,
      "num_input_tokens_seen": 5014352,
      "step": 7665
    },
    {
      "epoch": 4.019916142557652,
      "grad_norm": 0.052179690450429916,
      "learning_rate": 0.0009692648285623256,
      "loss": 0.4525,
      "num_input_tokens_seen": 5017072,
      "step": 7670
    },
    {
      "epoch": 4.022536687631027,
      "grad_norm": 0.05103535205125809,
      "learning_rate": 0.0009691858374965784,
      "loss": 0.5135,
      "num_input_tokens_seen": 5019824,
      "step": 7675
    },
    {
      "epoch": 4.0251572327044025,
      "grad_norm": 0.06736839562654495,
      "learning_rate": 0.0009691067482825069,
      "loss": 0.5293,
      "num_input_tokens_seen": 5022800,
      "step": 7680
    },
    {
      "epoch": 4.027777777777778,
      "grad_norm": 0.08151359856128693,
      "learning_rate": 0.0009690275609366554,
      "loss": 0.4073,
      "num_input_tokens_seen": 5025424,
      "step": 7685
    },
    {
      "epoch": 4.030398322851153,
      "grad_norm": 0.04879781976342201,
      "learning_rate": 0.0009689482754755891,
      "loss": 0.4374,
      "num_input_tokens_seen": 5028144,
      "step": 7690
    },
    {
      "epoch": 4.033018867924528,
      "grad_norm": 0.08658379316329956,
      "learning_rate": 0.0009688688919158938,
      "loss": 0.4804,
      "num_input_tokens_seen": 5031568,
      "step": 7695
    },
    {
      "epoch": 4.035639412997903,
      "grad_norm": 0.07941495627164841,
      "learning_rate": 0.0009687894102741754,
      "loss": 0.5168,
      "num_input_tokens_seen": 5034960,
      "step": 7700
    },
    {
      "epoch": 4.038259958071279,
      "grad_norm": 0.0435100793838501,
      "learning_rate": 0.0009687098305670605,
      "loss": 0.3692,
      "num_input_tokens_seen": 5037552,
      "step": 7705
    },
    {
      "epoch": 4.040880503144654,
      "grad_norm": 0.0589890219271183,
      "learning_rate": 0.0009686301528111964,
      "loss": 0.4631,
      "num_input_tokens_seen": 5041136,
      "step": 7710
    },
    {
      "epoch": 4.04350104821803,
      "grad_norm": 0.060898639261722565,
      "learning_rate": 0.0009685503770232507,
      "loss": 0.4903,
      "num_input_tokens_seen": 5044240,
      "step": 7715
    },
    {
      "epoch": 4.046121593291405,
      "grad_norm": 0.06291856616735458,
      "learning_rate": 0.0009684705032199117,
      "loss": 0.5449,
      "num_input_tokens_seen": 5047248,
      "step": 7720
    },
    {
      "epoch": 4.04874213836478,
      "grad_norm": 0.06616181880235672,
      "learning_rate": 0.0009683905314178881,
      "loss": 0.4171,
      "num_input_tokens_seen": 5050128,
      "step": 7725
    },
    {
      "epoch": 4.051362683438155,
      "grad_norm": 0.06362760812044144,
      "learning_rate": 0.000968310461633909,
      "loss": 0.5006,
      "num_input_tokens_seen": 5053744,
      "step": 7730
    },
    {
      "epoch": 4.05398322851153,
      "grad_norm": 0.07497003674507141,
      "learning_rate": 0.0009682302938847238,
      "loss": 0.5368,
      "num_input_tokens_seen": 5056912,
      "step": 7735
    },
    {
      "epoch": 4.056603773584905,
      "grad_norm": 0.07140213251113892,
      "learning_rate": 0.0009681500281871031,
      "loss": 0.4701,
      "num_input_tokens_seen": 5060880,
      "step": 7740
    },
    {
      "epoch": 4.059224318658281,
      "grad_norm": 0.08069220185279846,
      "learning_rate": 0.0009680696645578377,
      "loss": 0.6028,
      "num_input_tokens_seen": 5063888,
      "step": 7745
    },
    {
      "epoch": 4.061844863731656,
      "grad_norm": 0.07981140166521072,
      "learning_rate": 0.0009679892030137382,
      "loss": 0.4709,
      "num_input_tokens_seen": 5066960,
      "step": 7750
    },
    {
      "epoch": 4.064465408805032,
      "grad_norm": 0.17845883965492249,
      "learning_rate": 0.0009679086435716368,
      "loss": 0.4958,
      "num_input_tokens_seen": 5070352,
      "step": 7755
    },
    {
      "epoch": 4.067085953878407,
      "grad_norm": 0.06571624428033829,
      "learning_rate": 0.0009678279862483852,
      "loss": 0.6072,
      "num_input_tokens_seen": 5073488,
      "step": 7760
    },
    {
      "epoch": 4.069706498951782,
      "grad_norm": 0.07001017779111862,
      "learning_rate": 0.0009677472310608561,
      "loss": 0.4051,
      "num_input_tokens_seen": 5076720,
      "step": 7765
    },
    {
      "epoch": 4.072327044025157,
      "grad_norm": 0.07233618199825287,
      "learning_rate": 0.0009676663780259427,
      "loss": 0.5453,
      "num_input_tokens_seen": 5080080,
      "step": 7770
    },
    {
      "epoch": 4.0749475890985325,
      "grad_norm": 0.06353964656591415,
      "learning_rate": 0.0009675854271605583,
      "loss": 0.4943,
      "num_input_tokens_seen": 5083056,
      "step": 7775
    },
    {
      "epoch": 4.077568134171908,
      "grad_norm": 0.06450700759887695,
      "learning_rate": 0.0009675043784816371,
      "loss": 0.5462,
      "num_input_tokens_seen": 5085904,
      "step": 7780
    },
    {
      "epoch": 4.080188679245283,
      "grad_norm": 0.07101310789585114,
      "learning_rate": 0.0009674232320061336,
      "loss": 0.5364,
      "num_input_tokens_seen": 5088816,
      "step": 7785
    },
    {
      "epoch": 4.082809224318658,
      "grad_norm": 0.06755706667900085,
      "learning_rate": 0.0009673419877510226,
      "loss": 0.5263,
      "num_input_tokens_seen": 5092112,
      "step": 7790
    },
    {
      "epoch": 4.085429769392033,
      "grad_norm": 0.12962137162685394,
      "learning_rate": 0.0009672606457332994,
      "loss": 0.3999,
      "num_input_tokens_seen": 5095536,
      "step": 7795
    },
    {
      "epoch": 4.088050314465409,
      "grad_norm": 0.06102011725306511,
      "learning_rate": 0.0009671792059699798,
      "loss": 0.5614,
      "num_input_tokens_seen": 5099216,
      "step": 7800
    },
    {
      "epoch": 4.090670859538784,
      "grad_norm": 0.048143014311790466,
      "learning_rate": 0.0009670976684781003,
      "loss": 0.3873,
      "num_input_tokens_seen": 5102288,
      "step": 7805
    },
    {
      "epoch": 4.09329140461216,
      "grad_norm": 0.07788963615894318,
      "learning_rate": 0.0009670160332747174,
      "loss": 0.5226,
      "num_input_tokens_seen": 5105232,
      "step": 7810
    },
    {
      "epoch": 4.095911949685535,
      "grad_norm": 0.04706961661577225,
      "learning_rate": 0.0009669343003769085,
      "loss": 0.5647,
      "num_input_tokens_seen": 5109840,
      "step": 7815
    },
    {
      "epoch": 4.09853249475891,
      "grad_norm": 0.12080930173397064,
      "learning_rate": 0.0009668524698017709,
      "loss": 0.4814,
      "num_input_tokens_seen": 5112240,
      "step": 7820
    },
    {
      "epoch": 4.101153039832285,
      "grad_norm": 0.04438462853431702,
      "learning_rate": 0.0009667705415664227,
      "loss": 0.4387,
      "num_input_tokens_seen": 5115536,
      "step": 7825
    },
    {
      "epoch": 4.10377358490566,
      "grad_norm": 0.14747560024261475,
      "learning_rate": 0.0009666885156880026,
      "loss": 0.4677,
      "num_input_tokens_seen": 5118160,
      "step": 7830
    },
    {
      "epoch": 4.106394129979035,
      "grad_norm": 0.08673106133937836,
      "learning_rate": 0.0009666063921836692,
      "loss": 0.453,
      "num_input_tokens_seen": 5120720,
      "step": 7835
    },
    {
      "epoch": 4.109014675052411,
      "grad_norm": 0.0771300345659256,
      "learning_rate": 0.0009665241710706019,
      "loss": 0.5204,
      "num_input_tokens_seen": 5123632,
      "step": 7840
    },
    {
      "epoch": 4.111635220125786,
      "grad_norm": 0.09938116371631622,
      "learning_rate": 0.0009664418523660003,
      "loss": 0.4942,
      "num_input_tokens_seen": 5126288,
      "step": 7845
    },
    {
      "epoch": 4.114255765199162,
      "grad_norm": 0.1552773267030716,
      "learning_rate": 0.0009663594360870847,
      "loss": 0.7399,
      "num_input_tokens_seen": 5128752,
      "step": 7850
    },
    {
      "epoch": 4.116876310272537,
      "grad_norm": 0.03979417309165001,
      "learning_rate": 0.0009662769222510955,
      "loss": 0.5052,
      "num_input_tokens_seen": 5132048,
      "step": 7855
    },
    {
      "epoch": 4.119496855345912,
      "grad_norm": 0.12143848091363907,
      "learning_rate": 0.0009661943108752939,
      "loss": 0.4774,
      "num_input_tokens_seen": 5135024,
      "step": 7860
    },
    {
      "epoch": 4.122117400419287,
      "grad_norm": 0.056236714124679565,
      "learning_rate": 0.0009661116019769609,
      "loss": 0.4542,
      "num_input_tokens_seen": 5138512,
      "step": 7865
    },
    {
      "epoch": 4.1247379454926625,
      "grad_norm": 0.07908714562654495,
      "learning_rate": 0.0009660287955733986,
      "loss": 0.385,
      "num_input_tokens_seen": 5141872,
      "step": 7870
    },
    {
      "epoch": 4.127358490566038,
      "grad_norm": 0.10190347582101822,
      "learning_rate": 0.0009659458916819289,
      "loss": 0.5161,
      "num_input_tokens_seen": 5147664,
      "step": 7875
    },
    {
      "epoch": 4.129979035639413,
      "grad_norm": 0.12450829893350601,
      "learning_rate": 0.0009658628903198945,
      "loss": 0.4605,
      "num_input_tokens_seen": 5151696,
      "step": 7880
    },
    {
      "epoch": 4.132599580712788,
      "grad_norm": 0.0620393380522728,
      "learning_rate": 0.0009657797915046583,
      "loss": 0.4506,
      "num_input_tokens_seen": 5154800,
      "step": 7885
    },
    {
      "epoch": 4.135220125786163,
      "grad_norm": 0.0583178773522377,
      "learning_rate": 0.0009656965952536036,
      "loss": 0.4946,
      "num_input_tokens_seen": 5157744,
      "step": 7890
    },
    {
      "epoch": 4.137840670859539,
      "grad_norm": 0.045864004641771317,
      "learning_rate": 0.0009656133015841342,
      "loss": 0.383,
      "num_input_tokens_seen": 5160944,
      "step": 7895
    },
    {
      "epoch": 4.140461215932914,
      "grad_norm": 0.08076829463243484,
      "learning_rate": 0.000965529910513674,
      "loss": 0.4287,
      "num_input_tokens_seen": 5163920,
      "step": 7900
    },
    {
      "epoch": 4.1430817610062896,
      "grad_norm": 0.1292804777622223,
      "learning_rate": 0.0009654464220596676,
      "loss": 0.5585,
      "num_input_tokens_seen": 5167760,
      "step": 7905
    },
    {
      "epoch": 4.145702306079665,
      "grad_norm": 0.1090916320681572,
      "learning_rate": 0.0009653628362395799,
      "loss": 0.4924,
      "num_input_tokens_seen": 5170800,
      "step": 7910
    },
    {
      "epoch": 4.14832285115304,
      "grad_norm": 0.05845217406749725,
      "learning_rate": 0.0009652791530708958,
      "loss": 0.4283,
      "num_input_tokens_seen": 5173488,
      "step": 7915
    },
    {
      "epoch": 4.150943396226415,
      "grad_norm": 0.08215591311454773,
      "learning_rate": 0.0009651953725711212,
      "loss": 0.5356,
      "num_input_tokens_seen": 5176272,
      "step": 7920
    },
    {
      "epoch": 4.15356394129979,
      "grad_norm": 0.09840253740549088,
      "learning_rate": 0.0009651114947577818,
      "loss": 0.4385,
      "num_input_tokens_seen": 5178896,
      "step": 7925
    },
    {
      "epoch": 4.156184486373165,
      "grad_norm": 0.08263418823480606,
      "learning_rate": 0.0009650275196484239,
      "loss": 0.4534,
      "num_input_tokens_seen": 5182192,
      "step": 7930
    },
    {
      "epoch": 4.158805031446541,
      "grad_norm": 0.07768727093935013,
      "learning_rate": 0.0009649434472606144,
      "loss": 0.7844,
      "num_input_tokens_seen": 5185232,
      "step": 7935
    },
    {
      "epoch": 4.161425576519916,
      "grad_norm": 0.05868636071681976,
      "learning_rate": 0.00096485927761194,
      "loss": 0.6598,
      "num_input_tokens_seen": 5188176,
      "step": 7940
    },
    {
      "epoch": 4.164046121593292,
      "grad_norm": 0.07555033266544342,
      "learning_rate": 0.0009647750107200082,
      "loss": 0.5889,
      "num_input_tokens_seen": 5190768,
      "step": 7945
    },
    {
      "epoch": 4.166666666666667,
      "grad_norm": 0.1285874992609024,
      "learning_rate": 0.0009646906466024465,
      "loss": 0.3966,
      "num_input_tokens_seen": 5193584,
      "step": 7950
    },
    {
      "epoch": 4.169287211740042,
      "grad_norm": 0.10669492185115814,
      "learning_rate": 0.000964606185276903,
      "loss": 0.548,
      "num_input_tokens_seen": 5196592,
      "step": 7955
    },
    {
      "epoch": 4.171907756813417,
      "grad_norm": 0.05747126415371895,
      "learning_rate": 0.0009645216267610461,
      "loss": 0.4392,
      "num_input_tokens_seen": 5199024,
      "step": 7960
    },
    {
      "epoch": 4.1745283018867925,
      "grad_norm": 0.06923844665288925,
      "learning_rate": 0.0009644369710725644,
      "loss": 0.4236,
      "num_input_tokens_seen": 5202288,
      "step": 7965
    },
    {
      "epoch": 4.177148846960168,
      "grad_norm": 0.062076371163129807,
      "learning_rate": 0.0009643522182291669,
      "loss": 0.5926,
      "num_input_tokens_seen": 5205296,
      "step": 7970
    },
    {
      "epoch": 4.179769392033543,
      "grad_norm": 0.06122761592268944,
      "learning_rate": 0.000964267368248583,
      "loss": 0.4334,
      "num_input_tokens_seen": 5208912,
      "step": 7975
    },
    {
      "epoch": 4.182389937106918,
      "grad_norm": 0.1136000007390976,
      "learning_rate": 0.0009641824211485623,
      "loss": 0.4952,
      "num_input_tokens_seen": 5212048,
      "step": 7980
    },
    {
      "epoch": 4.185010482180293,
      "grad_norm": 0.06070037931203842,
      "learning_rate": 0.0009640973769468747,
      "loss": 0.4742,
      "num_input_tokens_seen": 5214800,
      "step": 7985
    },
    {
      "epoch": 4.187631027253669,
      "grad_norm": 0.07363605499267578,
      "learning_rate": 0.0009640122356613105,
      "loss": 0.3487,
      "num_input_tokens_seen": 5217744,
      "step": 7990
    },
    {
      "epoch": 4.190251572327044,
      "grad_norm": 0.09921500831842422,
      "learning_rate": 0.0009639269973096805,
      "loss": 0.6396,
      "num_input_tokens_seen": 5220784,
      "step": 7995
    },
    {
      "epoch": 4.1928721174004195,
      "grad_norm": 0.0930180475115776,
      "learning_rate": 0.0009638416619098154,
      "loss": 0.4142,
      "num_input_tokens_seen": 5223504,
      "step": 8000
    },
    {
      "epoch": 4.195492662473795,
      "grad_norm": 0.05558003857731819,
      "learning_rate": 0.0009637562294795663,
      "loss": 0.441,
      "num_input_tokens_seen": 5226672,
      "step": 8005
    },
    {
      "epoch": 4.19811320754717,
      "grad_norm": 0.08182459324598312,
      "learning_rate": 0.0009636707000368049,
      "loss": 0.3487,
      "num_input_tokens_seen": 5229808,
      "step": 8010
    },
    {
      "epoch": 4.200733752620545,
      "grad_norm": 0.13643279671669006,
      "learning_rate": 0.000963585073599423,
      "loss": 0.4755,
      "num_input_tokens_seen": 5233328,
      "step": 8015
    },
    {
      "epoch": 4.20335429769392,
      "grad_norm": 0.039011966437101364,
      "learning_rate": 0.0009634993501853323,
      "loss": 0.4194,
      "num_input_tokens_seen": 5238512,
      "step": 8020
    },
    {
      "epoch": 4.205974842767295,
      "grad_norm": 0.06728153675794601,
      "learning_rate": 0.0009634135298124656,
      "loss": 0.4702,
      "num_input_tokens_seen": 5242256,
      "step": 8025
    },
    {
      "epoch": 4.2085953878406706,
      "grad_norm": 0.09313973039388657,
      "learning_rate": 0.0009633276124987752,
      "loss": 0.4182,
      "num_input_tokens_seen": 5245040,
      "step": 8030
    },
    {
      "epoch": 4.211215932914046,
      "grad_norm": 0.08505179733037949,
      "learning_rate": 0.0009632415982622342,
      "loss": 0.4506,
      "num_input_tokens_seen": 5248112,
      "step": 8035
    },
    {
      "epoch": 4.213836477987422,
      "grad_norm": 0.07369974255561829,
      "learning_rate": 0.0009631554871208359,
      "loss": 0.5325,
      "num_input_tokens_seen": 5251792,
      "step": 8040
    },
    {
      "epoch": 4.216457023060797,
      "grad_norm": 0.07302942872047424,
      "learning_rate": 0.0009630692790925936,
      "loss": 0.5888,
      "num_input_tokens_seen": 5255120,
      "step": 8045
    },
    {
      "epoch": 4.219077568134172,
      "grad_norm": 0.0660385861992836,
      "learning_rate": 0.0009629829741955411,
      "loss": 0.6267,
      "num_input_tokens_seen": 5259248,
      "step": 8050
    },
    {
      "epoch": 4.221698113207547,
      "grad_norm": 0.07297966629266739,
      "learning_rate": 0.0009628965724477325,
      "loss": 0.4737,
      "num_input_tokens_seen": 5262832,
      "step": 8055
    },
    {
      "epoch": 4.2243186582809225,
      "grad_norm": 0.07627227902412415,
      "learning_rate": 0.0009628100738672419,
      "loss": 0.5726,
      "num_input_tokens_seen": 5266064,
      "step": 8060
    },
    {
      "epoch": 4.226939203354298,
      "grad_norm": 0.0677565336227417,
      "learning_rate": 0.0009627234784721637,
      "loss": 0.5004,
      "num_input_tokens_seen": 5269008,
      "step": 8065
    },
    {
      "epoch": 4.229559748427673,
      "grad_norm": 0.0646202340722084,
      "learning_rate": 0.0009626367862806129,
      "loss": 0.5518,
      "num_input_tokens_seen": 5272176,
      "step": 8070
    },
    {
      "epoch": 4.232180293501048,
      "grad_norm": 0.041487548500299454,
      "learning_rate": 0.0009625499973107246,
      "loss": 0.5283,
      "num_input_tokens_seen": 5276016,
      "step": 8075
    },
    {
      "epoch": 4.234800838574423,
      "grad_norm": 0.059638477861881256,
      "learning_rate": 0.0009624631115806537,
      "loss": 0.5357,
      "num_input_tokens_seen": 5279024,
      "step": 8080
    },
    {
      "epoch": 4.237421383647799,
      "grad_norm": 0.07042934000492096,
      "learning_rate": 0.0009623761291085761,
      "loss": 0.5201,
      "num_input_tokens_seen": 5283088,
      "step": 8085
    },
    {
      "epoch": 4.240041928721174,
      "grad_norm": 0.17003202438354492,
      "learning_rate": 0.0009622890499126873,
      "loss": 0.6708,
      "num_input_tokens_seen": 5285936,
      "step": 8090
    },
    {
      "epoch": 4.2426624737945495,
      "grad_norm": 0.07463201135396957,
      "learning_rate": 0.0009622018740112032,
      "loss": 0.3872,
      "num_input_tokens_seen": 5288912,
      "step": 8095
    },
    {
      "epoch": 4.245283018867925,
      "grad_norm": 0.1157926693558693,
      "learning_rate": 0.0009621146014223603,
      "loss": 0.6299,
      "num_input_tokens_seen": 5292912,
      "step": 8100
    },
    {
      "epoch": 4.2479035639413,
      "grad_norm": 0.060384735465049744,
      "learning_rate": 0.0009620272321644148,
      "loss": 0.4072,
      "num_input_tokens_seen": 5296368,
      "step": 8105
    },
    {
      "epoch": 4.250524109014675,
      "grad_norm": 0.1169249564409256,
      "learning_rate": 0.0009619397662556434,
      "loss": 0.5269,
      "num_input_tokens_seen": 5299408,
      "step": 8110
    },
    {
      "epoch": 4.25314465408805,
      "grad_norm": 0.1182793602347374,
      "learning_rate": 0.000961852203714343,
      "loss": 0.4054,
      "num_input_tokens_seen": 5302160,
      "step": 8115
    },
    {
      "epoch": 4.255765199161425,
      "grad_norm": 0.07837866246700287,
      "learning_rate": 0.0009617645445588307,
      "loss": 0.4838,
      "num_input_tokens_seen": 5305296,
      "step": 8120
    },
    {
      "epoch": 4.2583857442348005,
      "grad_norm": 0.09676321595907211,
      "learning_rate": 0.0009616767888074438,
      "loss": 0.4425,
      "num_input_tokens_seen": 5307888,
      "step": 8125
    },
    {
      "epoch": 4.261006289308176,
      "grad_norm": 0.05867622420191765,
      "learning_rate": 0.0009615889364785397,
      "loss": 0.4034,
      "num_input_tokens_seen": 5311024,
      "step": 8130
    },
    {
      "epoch": 4.263626834381552,
      "grad_norm": 0.07516215741634369,
      "learning_rate": 0.000961500987590496,
      "loss": 0.4689,
      "num_input_tokens_seen": 5314512,
      "step": 8135
    },
    {
      "epoch": 4.266247379454927,
      "grad_norm": 0.1205691248178482,
      "learning_rate": 0.0009614129421617111,
      "loss": 0.4881,
      "num_input_tokens_seen": 5317744,
      "step": 8140
    },
    {
      "epoch": 4.268867924528302,
      "grad_norm": 0.08640642464160919,
      "learning_rate": 0.0009613248002106027,
      "loss": 0.4325,
      "num_input_tokens_seen": 5322640,
      "step": 8145
    },
    {
      "epoch": 4.271488469601677,
      "grad_norm": 0.1286473125219345,
      "learning_rate": 0.000961236561755609,
      "loss": 0.5357,
      "num_input_tokens_seen": 5326192,
      "step": 8150
    },
    {
      "epoch": 4.274109014675052,
      "grad_norm": 0.04582120478153229,
      "learning_rate": 0.0009611482268151888,
      "loss": 0.4602,
      "num_input_tokens_seen": 5329104,
      "step": 8155
    },
    {
      "epoch": 4.276729559748428,
      "grad_norm": 0.050981029868125916,
      "learning_rate": 0.0009610597954078206,
      "loss": 0.459,
      "num_input_tokens_seen": 5332368,
      "step": 8160
    },
    {
      "epoch": 4.279350104821803,
      "grad_norm": 0.1254173219203949,
      "learning_rate": 0.0009609712675520031,
      "loss": 0.5397,
      "num_input_tokens_seen": 5336240,
      "step": 8165
    },
    {
      "epoch": 4.281970649895178,
      "grad_norm": 0.04064225032925606,
      "learning_rate": 0.0009608826432662556,
      "loss": 0.4332,
      "num_input_tokens_seen": 5341104,
      "step": 8170
    },
    {
      "epoch": 4.284591194968553,
      "grad_norm": 0.06901555508375168,
      "learning_rate": 0.0009607939225691172,
      "loss": 0.4803,
      "num_input_tokens_seen": 5343440,
      "step": 8175
    },
    {
      "epoch": 4.287211740041929,
      "grad_norm": 0.06465444713830948,
      "learning_rate": 0.0009607051054791472,
      "loss": 0.4489,
      "num_input_tokens_seen": 5347280,
      "step": 8180
    },
    {
      "epoch": 4.289832285115304,
      "grad_norm": 0.07135702669620514,
      "learning_rate": 0.000960616192014925,
      "loss": 0.4581,
      "num_input_tokens_seen": 5354512,
      "step": 8185
    },
    {
      "epoch": 4.2924528301886795,
      "grad_norm": 0.03630693629384041,
      "learning_rate": 0.0009605271821950506,
      "loss": 0.4495,
      "num_input_tokens_seen": 5357840,
      "step": 8190
    },
    {
      "epoch": 4.295073375262055,
      "grad_norm": 0.07154255360364914,
      "learning_rate": 0.0009604380760381434,
      "loss": 0.5674,
      "num_input_tokens_seen": 5362096,
      "step": 8195
    },
    {
      "epoch": 4.29769392033543,
      "grad_norm": 0.07270123809576035,
      "learning_rate": 0.0009603488735628439,
      "loss": 0.5014,
      "num_input_tokens_seen": 5364784,
      "step": 8200
    },
    {
      "epoch": 4.300314465408805,
      "grad_norm": 0.1049116849899292,
      "learning_rate": 0.0009602595747878118,
      "loss": 0.3923,
      "num_input_tokens_seen": 5367504,
      "step": 8205
    },
    {
      "epoch": 4.30293501048218,
      "grad_norm": 0.12667472660541534,
      "learning_rate": 0.0009601701797317278,
      "loss": 0.5473,
      "num_input_tokens_seen": 5370384,
      "step": 8210
    },
    {
      "epoch": 4.305555555555555,
      "grad_norm": 0.05762983113527298,
      "learning_rate": 0.0009600806884132917,
      "loss": 0.4852,
      "num_input_tokens_seen": 5373264,
      "step": 8215
    },
    {
      "epoch": 4.3081761006289305,
      "grad_norm": 0.0772140622138977,
      "learning_rate": 0.0009599911008512248,
      "loss": 0.4534,
      "num_input_tokens_seen": 5377040,
      "step": 8220
    },
    {
      "epoch": 4.310796645702306,
      "grad_norm": 0.14523284137248993,
      "learning_rate": 0.0009599014170642674,
      "loss": 0.5454,
      "num_input_tokens_seen": 5379888,
      "step": 8225
    },
    {
      "epoch": 4.313417190775682,
      "grad_norm": 0.14460980892181396,
      "learning_rate": 0.0009598116370711805,
      "loss": 0.5936,
      "num_input_tokens_seen": 5382864,
      "step": 8230
    },
    {
      "epoch": 4.316037735849057,
      "grad_norm": 0.07953241467475891,
      "learning_rate": 0.0009597217608907447,
      "loss": 0.4496,
      "num_input_tokens_seen": 5386224,
      "step": 8235
    },
    {
      "epoch": 4.318658280922432,
      "grad_norm": 0.05406546592712402,
      "learning_rate": 0.0009596317885417614,
      "loss": 0.4594,
      "num_input_tokens_seen": 5389104,
      "step": 8240
    },
    {
      "epoch": 4.321278825995807,
      "grad_norm": 0.052763450890779495,
      "learning_rate": 0.0009595417200430516,
      "loss": 0.3849,
      "num_input_tokens_seen": 5391376,
      "step": 8245
    },
    {
      "epoch": 4.323899371069182,
      "grad_norm": 0.07030138373374939,
      "learning_rate": 0.0009594515554134568,
      "loss": 0.392,
      "num_input_tokens_seen": 5394672,
      "step": 8250
    },
    {
      "epoch": 4.326519916142558,
      "grad_norm": 0.04552144557237625,
      "learning_rate": 0.0009593612946718384,
      "loss": 0.485,
      "num_input_tokens_seen": 5398096,
      "step": 8255
    },
    {
      "epoch": 4.329140461215933,
      "grad_norm": 0.08511967957019806,
      "learning_rate": 0.0009592709378370778,
      "loss": 0.599,
      "num_input_tokens_seen": 5400880,
      "step": 8260
    },
    {
      "epoch": 4.331761006289308,
      "grad_norm": 0.06868300586938858,
      "learning_rate": 0.0009591804849280766,
      "loss": 0.5745,
      "num_input_tokens_seen": 5404336,
      "step": 8265
    },
    {
      "epoch": 4.334381551362683,
      "grad_norm": 0.1063116267323494,
      "learning_rate": 0.0009590899359637564,
      "loss": 0.3759,
      "num_input_tokens_seen": 5408272,
      "step": 8270
    },
    {
      "epoch": 4.337002096436059,
      "grad_norm": 0.0996919572353363,
      "learning_rate": 0.0009589992909630594,
      "loss": 0.556,
      "num_input_tokens_seen": 5411824,
      "step": 8275
    },
    {
      "epoch": 4.339622641509434,
      "grad_norm": 0.1296410858631134,
      "learning_rate": 0.0009589085499449471,
      "loss": 0.4542,
      "num_input_tokens_seen": 5415344,
      "step": 8280
    },
    {
      "epoch": 4.3422431865828095,
      "grad_norm": 0.08466453105211258,
      "learning_rate": 0.0009588177129284017,
      "loss": 0.4422,
      "num_input_tokens_seen": 5418384,
      "step": 8285
    },
    {
      "epoch": 4.344863731656185,
      "grad_norm": 0.08584336191415787,
      "learning_rate": 0.0009587267799324253,
      "loss": 0.4535,
      "num_input_tokens_seen": 5422192,
      "step": 8290
    },
    {
      "epoch": 4.34748427672956,
      "grad_norm": 0.051968805491924286,
      "learning_rate": 0.0009586357509760399,
      "loss": 0.5177,
      "num_input_tokens_seen": 5426224,
      "step": 8295
    },
    {
      "epoch": 4.350104821802935,
      "grad_norm": 0.09844209998846054,
      "learning_rate": 0.0009585446260782878,
      "loss": 0.4589,
      "num_input_tokens_seen": 5428816,
      "step": 8300
    },
    {
      "epoch": 4.35272536687631,
      "grad_norm": 0.14297999441623688,
      "learning_rate": 0.0009584534052582313,
      "loss": 0.4517,
      "num_input_tokens_seen": 5433712,
      "step": 8305
    },
    {
      "epoch": 4.355345911949685,
      "grad_norm": 0.06477921456098557,
      "learning_rate": 0.0009583620885349527,
      "loss": 0.555,
      "num_input_tokens_seen": 5436080,
      "step": 8310
    },
    {
      "epoch": 4.3579664570230605,
      "grad_norm": 0.08739952743053436,
      "learning_rate": 0.0009582706759275546,
      "loss": 0.4967,
      "num_input_tokens_seen": 5438864,
      "step": 8315
    },
    {
      "epoch": 4.360587002096436,
      "grad_norm": 0.07888254523277283,
      "learning_rate": 0.0009581791674551592,
      "loss": 0.3142,
      "num_input_tokens_seen": 5441488,
      "step": 8320
    },
    {
      "epoch": 4.363207547169811,
      "grad_norm": 0.052652694284915924,
      "learning_rate": 0.000958087563136909,
      "loss": 0.4764,
      "num_input_tokens_seen": 5444752,
      "step": 8325
    },
    {
      "epoch": 4.365828092243187,
      "grad_norm": 0.11042488366365433,
      "learning_rate": 0.000957995862991967,
      "loss": 0.5262,
      "num_input_tokens_seen": 5447600,
      "step": 8330
    },
    {
      "epoch": 4.368448637316562,
      "grad_norm": 0.1006278395652771,
      "learning_rate": 0.0009579040670395154,
      "loss": 0.4606,
      "num_input_tokens_seen": 5450928,
      "step": 8335
    },
    {
      "epoch": 4.371069182389937,
      "grad_norm": 0.07659545540809631,
      "learning_rate": 0.000957812175298757,
      "loss": 0.4964,
      "num_input_tokens_seen": 5454192,
      "step": 8340
    },
    {
      "epoch": 4.373689727463312,
      "grad_norm": 0.05373404920101166,
      "learning_rate": 0.0009577201877889145,
      "loss": 0.4948,
      "num_input_tokens_seen": 5457200,
      "step": 8345
    },
    {
      "epoch": 4.376310272536688,
      "grad_norm": 0.0642462745308876,
      "learning_rate": 0.0009576281045292308,
      "loss": 0.4818,
      "num_input_tokens_seen": 5460816,
      "step": 8350
    },
    {
      "epoch": 4.378930817610063,
      "grad_norm": 0.05031465366482735,
      "learning_rate": 0.0009575359255389686,
      "loss": 0.5475,
      "num_input_tokens_seen": 5466256,
      "step": 8355
    },
    {
      "epoch": 4.381551362683438,
      "grad_norm": 0.06832834333181381,
      "learning_rate": 0.0009574436508374104,
      "loss": 0.5493,
      "num_input_tokens_seen": 5469520,
      "step": 8360
    },
    {
      "epoch": 4.384171907756813,
      "grad_norm": 0.06798674911260605,
      "learning_rate": 0.0009573512804438594,
      "loss": 0.4561,
      "num_input_tokens_seen": 5473200,
      "step": 8365
    },
    {
      "epoch": 4.386792452830189,
      "grad_norm": 0.1477498561143875,
      "learning_rate": 0.0009572588143776381,
      "loss": 0.3851,
      "num_input_tokens_seen": 5475888,
      "step": 8370
    },
    {
      "epoch": 4.389412997903564,
      "grad_norm": 0.07136812061071396,
      "learning_rate": 0.0009571662526580897,
      "loss": 0.3805,
      "num_input_tokens_seen": 5478224,
      "step": 8375
    },
    {
      "epoch": 4.3920335429769395,
      "grad_norm": 0.05450081825256348,
      "learning_rate": 0.0009570735953045768,
      "loss": 0.4779,
      "num_input_tokens_seen": 5481264,
      "step": 8380
    },
    {
      "epoch": 4.394654088050315,
      "grad_norm": 0.047721389681100845,
      "learning_rate": 0.0009569808423364823,
      "loss": 0.5223,
      "num_input_tokens_seen": 5485040,
      "step": 8385
    },
    {
      "epoch": 4.39727463312369,
      "grad_norm": 0.1211356446146965,
      "learning_rate": 0.0009568879937732091,
      "loss": 0.452,
      "num_input_tokens_seen": 5488848,
      "step": 8390
    },
    {
      "epoch": 4.399895178197065,
      "grad_norm": 0.06864213943481445,
      "learning_rate": 0.0009567950496341802,
      "loss": 0.5038,
      "num_input_tokens_seen": 5491504,
      "step": 8395
    },
    {
      "epoch": 4.40251572327044,
      "grad_norm": 0.07857711613178253,
      "learning_rate": 0.0009567020099388382,
      "loss": 0.6364,
      "num_input_tokens_seen": 5494384,
      "step": 8400
    },
    {
      "epoch": 4.405136268343815,
      "grad_norm": 0.06375706195831299,
      "learning_rate": 0.0009566088747066459,
      "loss": 0.667,
      "num_input_tokens_seen": 5497712,
      "step": 8405
    },
    {
      "epoch": 4.4077568134171905,
      "grad_norm": 0.12763872742652893,
      "learning_rate": 0.0009565156439570866,
      "loss": 0.4142,
      "num_input_tokens_seen": 5500464,
      "step": 8410
    },
    {
      "epoch": 4.410377358490566,
      "grad_norm": 0.06272289156913757,
      "learning_rate": 0.0009564223177096625,
      "loss": 0.3576,
      "num_input_tokens_seen": 5503632,
      "step": 8415
    },
    {
      "epoch": 4.412997903563941,
      "grad_norm": 0.04474712163209915,
      "learning_rate": 0.0009563288959838969,
      "loss": 0.4772,
      "num_input_tokens_seen": 5506512,
      "step": 8420
    },
    {
      "epoch": 4.415618448637317,
      "grad_norm": 0.13391268253326416,
      "learning_rate": 0.0009562353787993321,
      "loss": 0.3859,
      "num_input_tokens_seen": 5509648,
      "step": 8425
    },
    {
      "epoch": 4.418238993710692,
      "grad_norm": 0.0953664481639862,
      "learning_rate": 0.0009561417661755312,
      "loss": 0.4711,
      "num_input_tokens_seen": 5512144,
      "step": 8430
    },
    {
      "epoch": 4.420859538784067,
      "grad_norm": 0.0881478413939476,
      "learning_rate": 0.0009560480581320768,
      "loss": 0.5289,
      "num_input_tokens_seen": 5515312,
      "step": 8435
    },
    {
      "epoch": 4.423480083857442,
      "grad_norm": 0.08957577496767044,
      "learning_rate": 0.0009559542546885714,
      "loss": 0.5126,
      "num_input_tokens_seen": 5518000,
      "step": 8440
    },
    {
      "epoch": 4.426100628930818,
      "grad_norm": 0.044468361884355545,
      "learning_rate": 0.0009558603558646378,
      "loss": 0.3753,
      "num_input_tokens_seen": 5521200,
      "step": 8445
    },
    {
      "epoch": 4.428721174004193,
      "grad_norm": 0.07615313678979874,
      "learning_rate": 0.0009557663616799185,
      "loss": 0.6028,
      "num_input_tokens_seen": 5524336,
      "step": 8450
    },
    {
      "epoch": 4.431341719077568,
      "grad_norm": 0.13058915734291077,
      "learning_rate": 0.0009556722721540759,
      "loss": 0.5041,
      "num_input_tokens_seen": 5527344,
      "step": 8455
    },
    {
      "epoch": 4.433962264150943,
      "grad_norm": 0.06794146448373795,
      "learning_rate": 0.0009555780873067927,
      "loss": 0.3364,
      "num_input_tokens_seen": 5534256,
      "step": 8460
    },
    {
      "epoch": 4.436582809224318,
      "grad_norm": 0.04170344024896622,
      "learning_rate": 0.000955483807157771,
      "loss": 0.3725,
      "num_input_tokens_seen": 5537296,
      "step": 8465
    },
    {
      "epoch": 4.439203354297694,
      "grad_norm": 0.13836175203323364,
      "learning_rate": 0.0009553894317267333,
      "loss": 0.5723,
      "num_input_tokens_seen": 5540656,
      "step": 8470
    },
    {
      "epoch": 4.4418238993710695,
      "grad_norm": 0.06989821791648865,
      "learning_rate": 0.0009552949610334219,
      "loss": 0.4236,
      "num_input_tokens_seen": 5543632,
      "step": 8475
    },
    {
      "epoch": 4.444444444444445,
      "grad_norm": 0.07658355683088303,
      "learning_rate": 0.000955200395097599,
      "loss": 0.5345,
      "num_input_tokens_seen": 5546544,
      "step": 8480
    },
    {
      "epoch": 4.44706498951782,
      "grad_norm": 0.11385731399059296,
      "learning_rate": 0.0009551057339390464,
      "loss": 0.4616,
      "num_input_tokens_seen": 5549168,
      "step": 8485
    },
    {
      "epoch": 4.449685534591195,
      "grad_norm": 0.04741483926773071,
      "learning_rate": 0.0009550109775775666,
      "loss": 0.3784,
      "num_input_tokens_seen": 5553264,
      "step": 8490
    },
    {
      "epoch": 4.45230607966457,
      "grad_norm": 0.056451596319675446,
      "learning_rate": 0.0009549161260329811,
      "loss": 0.4903,
      "num_input_tokens_seen": 5556144,
      "step": 8495
    },
    {
      "epoch": 4.454926624737945,
      "grad_norm": 0.09763119369745255,
      "learning_rate": 0.0009548211793251322,
      "loss": 0.3345,
      "num_input_tokens_seen": 5558832,
      "step": 8500
    },
    {
      "epoch": 4.4575471698113205,
      "grad_norm": 0.06189794838428497,
      "learning_rate": 0.0009547261374738814,
      "loss": 0.4982,
      "num_input_tokens_seen": 5561968,
      "step": 8505
    },
    {
      "epoch": 4.460167714884696,
      "grad_norm": 0.069039486348629,
      "learning_rate": 0.0009546310004991105,
      "loss": 0.4279,
      "num_input_tokens_seen": 5565456,
      "step": 8510
    },
    {
      "epoch": 4.462788259958071,
      "grad_norm": 0.06393996626138687,
      "learning_rate": 0.000954535768420721,
      "loss": 0.4965,
      "num_input_tokens_seen": 5568144,
      "step": 8515
    },
    {
      "epoch": 4.465408805031447,
      "grad_norm": 0.05331367999315262,
      "learning_rate": 0.0009544404412586343,
      "loss": 0.541,
      "num_input_tokens_seen": 5572080,
      "step": 8520
    },
    {
      "epoch": 4.468029350104822,
      "grad_norm": 0.06125761196017265,
      "learning_rate": 0.0009543450190327917,
      "loss": 0.4545,
      "num_input_tokens_seen": 5574992,
      "step": 8525
    },
    {
      "epoch": 4.470649895178197,
      "grad_norm": 0.08581843227148056,
      "learning_rate": 0.0009542495017631547,
      "loss": 0.3849,
      "num_input_tokens_seen": 5578000,
      "step": 8530
    },
    {
      "epoch": 4.473270440251572,
      "grad_norm": 0.048274293541908264,
      "learning_rate": 0.0009541538894697043,
      "loss": 0.4582,
      "num_input_tokens_seen": 5581200,
      "step": 8535
    },
    {
      "epoch": 4.475890985324948,
      "grad_norm": 0.06464815139770508,
      "learning_rate": 0.0009540581821724414,
      "loss": 0.4136,
      "num_input_tokens_seen": 5584336,
      "step": 8540
    },
    {
      "epoch": 4.478511530398323,
      "grad_norm": 0.06821190565824509,
      "learning_rate": 0.000953962379891387,
      "loss": 0.4674,
      "num_input_tokens_seen": 5587440,
      "step": 8545
    },
    {
      "epoch": 4.481132075471698,
      "grad_norm": 0.10227353870868683,
      "learning_rate": 0.0009538664826465818,
      "loss": 0.6327,
      "num_input_tokens_seen": 5590192,
      "step": 8550
    },
    {
      "epoch": 4.483752620545073,
      "grad_norm": 0.04628685489296913,
      "learning_rate": 0.0009537704904580864,
      "loss": 0.424,
      "num_input_tokens_seen": 5593712,
      "step": 8555
    },
    {
      "epoch": 4.486373165618448,
      "grad_norm": 0.0799810141324997,
      "learning_rate": 0.0009536744033459815,
      "loss": 0.5153,
      "num_input_tokens_seen": 5596624,
      "step": 8560
    },
    {
      "epoch": 4.488993710691824,
      "grad_norm": 0.08597412705421448,
      "learning_rate": 0.0009535782213303669,
      "loss": 0.447,
      "num_input_tokens_seen": 5599536,
      "step": 8565
    },
    {
      "epoch": 4.4916142557651995,
      "grad_norm": 0.05256912484765053,
      "learning_rate": 0.0009534819444313631,
      "loss": 0.4617,
      "num_input_tokens_seen": 5603056,
      "step": 8570
    },
    {
      "epoch": 4.494234800838575,
      "grad_norm": 0.08603734523057938,
      "learning_rate": 0.0009533855726691103,
      "loss": 0.5097,
      "num_input_tokens_seen": 5605968,
      "step": 8575
    },
    {
      "epoch": 4.49685534591195,
      "grad_norm": 0.114565908908844,
      "learning_rate": 0.0009532891060637681,
      "loss": 0.5597,
      "num_input_tokens_seen": 5608656,
      "step": 8580
    },
    {
      "epoch": 4.499475890985325,
      "grad_norm": 0.0961817055940628,
      "learning_rate": 0.0009531925446355163,
      "loss": 0.5179,
      "num_input_tokens_seen": 5612176,
      "step": 8585
    },
    {
      "epoch": 4.5020964360587,
      "grad_norm": 0.07589401304721832,
      "learning_rate": 0.0009530958884045545,
      "loss": 0.3917,
      "num_input_tokens_seen": 5615728,
      "step": 8590
    },
    {
      "epoch": 4.504716981132075,
      "grad_norm": 0.06987550854682922,
      "learning_rate": 0.000952999137391102,
      "loss": 0.5364,
      "num_input_tokens_seen": 5618448,
      "step": 8595
    },
    {
      "epoch": 4.5073375262054505,
      "grad_norm": 0.058668527752161026,
      "learning_rate": 0.0009529022916153982,
      "loss": 0.4472,
      "num_input_tokens_seen": 5622256,
      "step": 8600
    },
    {
      "epoch": 4.509958071278826,
      "grad_norm": 0.09156240522861481,
      "learning_rate": 0.0009528053510977017,
      "loss": 0.4983,
      "num_input_tokens_seen": 5625264,
      "step": 8605
    },
    {
      "epoch": 4.512578616352201,
      "grad_norm": 0.06308642029762268,
      "learning_rate": 0.0009527083158582919,
      "loss": 0.507,
      "num_input_tokens_seen": 5627888,
      "step": 8610
    },
    {
      "epoch": 4.515199161425577,
      "grad_norm": 0.051549360156059265,
      "learning_rate": 0.0009526111859174671,
      "loss": 0.4436,
      "num_input_tokens_seen": 5632208,
      "step": 8615
    },
    {
      "epoch": 4.517819706498952,
      "grad_norm": 0.06544572860002518,
      "learning_rate": 0.0009525139612955458,
      "loss": 0.3772,
      "num_input_tokens_seen": 5634384,
      "step": 8620
    },
    {
      "epoch": 4.520440251572327,
      "grad_norm": 0.06996818631887436,
      "learning_rate": 0.0009524166420128664,
      "loss": 0.4976,
      "num_input_tokens_seen": 5636944,
      "step": 8625
    },
    {
      "epoch": 4.523060796645702,
      "grad_norm": 0.036106180399656296,
      "learning_rate": 0.0009523192280897867,
      "loss": 0.5409,
      "num_input_tokens_seen": 5640080,
      "step": 8630
    },
    {
      "epoch": 4.5256813417190775,
      "grad_norm": 0.07813975214958191,
      "learning_rate": 0.0009522217195466851,
      "loss": 0.5399,
      "num_input_tokens_seen": 5643408,
      "step": 8635
    },
    {
      "epoch": 4.528301886792453,
      "grad_norm": 0.10772467404603958,
      "learning_rate": 0.0009521241164039589,
      "loss": 0.5477,
      "num_input_tokens_seen": 5647216,
      "step": 8640
    },
    {
      "epoch": 4.530922431865828,
      "grad_norm": 0.12589535117149353,
      "learning_rate": 0.0009520264186820258,
      "loss": 0.4916,
      "num_input_tokens_seen": 5651024,
      "step": 8645
    },
    {
      "epoch": 4.533542976939203,
      "grad_norm": 0.07846397161483765,
      "learning_rate": 0.0009519286264013227,
      "loss": 0.4256,
      "num_input_tokens_seen": 5654032,
      "step": 8650
    },
    {
      "epoch": 4.536163522012579,
      "grad_norm": 0.07078826427459717,
      "learning_rate": 0.0009518307395823069,
      "loss": 0.3794,
      "num_input_tokens_seen": 5656720,
      "step": 8655
    },
    {
      "epoch": 4.538784067085954,
      "grad_norm": 0.07953519374132156,
      "learning_rate": 0.0009517327582454551,
      "loss": 0.4602,
      "num_input_tokens_seen": 5658992,
      "step": 8660
    },
    {
      "epoch": 4.5414046121593294,
      "grad_norm": 0.07080350071191788,
      "learning_rate": 0.000951634682411264,
      "loss": 0.2987,
      "num_input_tokens_seen": 5662448,
      "step": 8665
    },
    {
      "epoch": 4.544025157232705,
      "grad_norm": 0.08810119330883026,
      "learning_rate": 0.0009515365121002498,
      "loss": 0.6124,
      "num_input_tokens_seen": 5665648,
      "step": 8670
    },
    {
      "epoch": 4.54664570230608,
      "grad_norm": 0.12031865119934082,
      "learning_rate": 0.0009514382473329487,
      "loss": 0.5357,
      "num_input_tokens_seen": 5668976,
      "step": 8675
    },
    {
      "epoch": 4.549266247379455,
      "grad_norm": 0.036001306027173996,
      "learning_rate": 0.0009513398881299164,
      "loss": 0.3517,
      "num_input_tokens_seen": 5672272,
      "step": 8680
    },
    {
      "epoch": 4.55188679245283,
      "grad_norm": 0.08919709920883179,
      "learning_rate": 0.0009512414345117289,
      "loss": 0.4906,
      "num_input_tokens_seen": 5675056,
      "step": 8685
    },
    {
      "epoch": 4.554507337526205,
      "grad_norm": 0.05898850038647652,
      "learning_rate": 0.0009511428864989813,
      "loss": 0.4098,
      "num_input_tokens_seen": 5677808,
      "step": 8690
    },
    {
      "epoch": 4.5571278825995805,
      "grad_norm": 0.08166169375181198,
      "learning_rate": 0.0009510442441122886,
      "loss": 0.4603,
      "num_input_tokens_seen": 5681808,
      "step": 8695
    },
    {
      "epoch": 4.559748427672956,
      "grad_norm": 0.06549065560102463,
      "learning_rate": 0.0009509455073722859,
      "loss": 0.4902,
      "num_input_tokens_seen": 5684688,
      "step": 8700
    },
    {
      "epoch": 4.562368972746331,
      "grad_norm": 0.060808561742305756,
      "learning_rate": 0.0009508466762996277,
      "loss": 0.4304,
      "num_input_tokens_seen": 5687792,
      "step": 8705
    },
    {
      "epoch": 4.564989517819707,
      "grad_norm": 0.0910075306892395,
      "learning_rate": 0.0009507477509149883,
      "loss": 0.5774,
      "num_input_tokens_seen": 5690352,
      "step": 8710
    },
    {
      "epoch": 4.567610062893082,
      "grad_norm": 0.0667465478181839,
      "learning_rate": 0.0009506487312390619,
      "loss": 0.5391,
      "num_input_tokens_seen": 5693232,
      "step": 8715
    },
    {
      "epoch": 4.570230607966457,
      "grad_norm": 0.07450094819068909,
      "learning_rate": 0.0009505496172925622,
      "loss": 0.4105,
      "num_input_tokens_seen": 5695792,
      "step": 8720
    },
    {
      "epoch": 4.572851153039832,
      "grad_norm": 0.08476587384939194,
      "learning_rate": 0.0009504504090962226,
      "loss": 0.3942,
      "num_input_tokens_seen": 5699664,
      "step": 8725
    },
    {
      "epoch": 4.5754716981132075,
      "grad_norm": 0.06922163814306259,
      "learning_rate": 0.0009503511066707966,
      "loss": 0.4019,
      "num_input_tokens_seen": 5702832,
      "step": 8730
    },
    {
      "epoch": 4.578092243186583,
      "grad_norm": 0.06437993794679642,
      "learning_rate": 0.0009502517100370568,
      "loss": 0.4155,
      "num_input_tokens_seen": 5705520,
      "step": 8735
    },
    {
      "epoch": 4.580712788259958,
      "grad_norm": 0.059683658182621,
      "learning_rate": 0.0009501522192157961,
      "loss": 0.4705,
      "num_input_tokens_seen": 5709584,
      "step": 8740
    },
    {
      "epoch": 4.583333333333333,
      "grad_norm": 0.07561194896697998,
      "learning_rate": 0.0009500526342278266,
      "loss": 0.4268,
      "num_input_tokens_seen": 5713840,
      "step": 8745
    },
    {
      "epoch": 4.585953878406709,
      "grad_norm": 0.10212533175945282,
      "learning_rate": 0.0009499529550939807,
      "loss": 0.5826,
      "num_input_tokens_seen": 5716016,
      "step": 8750
    },
    {
      "epoch": 4.588574423480084,
      "grad_norm": 0.07170921564102173,
      "learning_rate": 0.0009498531818351098,
      "loss": 0.4451,
      "num_input_tokens_seen": 5718640,
      "step": 8755
    },
    {
      "epoch": 4.591194968553459,
      "grad_norm": 0.05814626067876816,
      "learning_rate": 0.0009497533144720854,
      "loss": 0.3702,
      "num_input_tokens_seen": 5722448,
      "step": 8760
    },
    {
      "epoch": 4.593815513626835,
      "grad_norm": 0.07196119427680969,
      "learning_rate": 0.0009496533530257988,
      "loss": 0.4241,
      "num_input_tokens_seen": 5725520,
      "step": 8765
    },
    {
      "epoch": 4.59643605870021,
      "grad_norm": 0.10816413164138794,
      "learning_rate": 0.0009495532975171605,
      "loss": 0.4965,
      "num_input_tokens_seen": 5728144,
      "step": 8770
    },
    {
      "epoch": 4.599056603773585,
      "grad_norm": 0.0833001509308815,
      "learning_rate": 0.0009494531479671014,
      "loss": 0.5713,
      "num_input_tokens_seen": 5731280,
      "step": 8775
    },
    {
      "epoch": 4.60167714884696,
      "grad_norm": 0.06604425609111786,
      "learning_rate": 0.0009493529043965712,
      "loss": 0.5882,
      "num_input_tokens_seen": 5734096,
      "step": 8780
    },
    {
      "epoch": 4.604297693920335,
      "grad_norm": 0.05050533264875412,
      "learning_rate": 0.00094925256682654,
      "loss": 0.488,
      "num_input_tokens_seen": 5737360,
      "step": 8785
    },
    {
      "epoch": 4.6069182389937104,
      "grad_norm": 0.15553221106529236,
      "learning_rate": 0.000949152135277997,
      "loss": 0.4861,
      "num_input_tokens_seen": 5740432,
      "step": 8790
    },
    {
      "epoch": 4.609538784067086,
      "grad_norm": 0.051714617758989334,
      "learning_rate": 0.0009490516097719515,
      "loss": 0.4709,
      "num_input_tokens_seen": 5745552,
      "step": 8795
    },
    {
      "epoch": 4.612159329140461,
      "grad_norm": 0.08081463724374771,
      "learning_rate": 0.0009489509903294324,
      "loss": 0.4717,
      "num_input_tokens_seen": 5749712,
      "step": 8800
    },
    {
      "epoch": 4.614779874213837,
      "grad_norm": 0.062476009130477905,
      "learning_rate": 0.000948850276971488,
      "loss": 0.4229,
      "num_input_tokens_seen": 5753648,
      "step": 8805
    },
    {
      "epoch": 4.617400419287212,
      "grad_norm": 0.03668031096458435,
      "learning_rate": 0.0009487494697191864,
      "loss": 0.5488,
      "num_input_tokens_seen": 5757008,
      "step": 8810
    },
    {
      "epoch": 4.620020964360587,
      "grad_norm": 0.03975124657154083,
      "learning_rate": 0.0009486485685936154,
      "loss": 0.3983,
      "num_input_tokens_seen": 5760816,
      "step": 8815
    },
    {
      "epoch": 4.622641509433962,
      "grad_norm": 0.058848049491643906,
      "learning_rate": 0.0009485475736158822,
      "loss": 0.7389,
      "num_input_tokens_seen": 5764080,
      "step": 8820
    },
    {
      "epoch": 4.6252620545073375,
      "grad_norm": 0.065913125872612,
      "learning_rate": 0.000948446484807114,
      "loss": 0.5857,
      "num_input_tokens_seen": 5767728,
      "step": 8825
    },
    {
      "epoch": 4.627882599580713,
      "grad_norm": 0.07555269449949265,
      "learning_rate": 0.0009483453021884572,
      "loss": 0.5368,
      "num_input_tokens_seen": 5771568,
      "step": 8830
    },
    {
      "epoch": 4.630503144654088,
      "grad_norm": 0.07617223262786865,
      "learning_rate": 0.0009482440257810782,
      "loss": 0.4697,
      "num_input_tokens_seen": 5774576,
      "step": 8835
    },
    {
      "epoch": 4.633123689727463,
      "grad_norm": 0.07380267232656479,
      "learning_rate": 0.000948142655606163,
      "loss": 0.3619,
      "num_input_tokens_seen": 5778480,
      "step": 8840
    },
    {
      "epoch": 4.635744234800838,
      "grad_norm": 0.052382778376340866,
      "learning_rate": 0.0009480411916849168,
      "loss": 0.4191,
      "num_input_tokens_seen": 5782160,
      "step": 8845
    },
    {
      "epoch": 4.638364779874214,
      "grad_norm": 0.23469389975070953,
      "learning_rate": 0.0009479396340385649,
      "loss": 0.5395,
      "num_input_tokens_seen": 5784560,
      "step": 8850
    },
    {
      "epoch": 4.640985324947589,
      "grad_norm": 0.11886362731456757,
      "learning_rate": 0.0009478379826883519,
      "loss": 0.5057,
      "num_input_tokens_seen": 5787984,
      "step": 8855
    },
    {
      "epoch": 4.643605870020965,
      "grad_norm": 0.08963778614997864,
      "learning_rate": 0.0009477362376555421,
      "loss": 0.5883,
      "num_input_tokens_seen": 5791056,
      "step": 8860
    },
    {
      "epoch": 4.64622641509434,
      "grad_norm": 0.08349032700061798,
      "learning_rate": 0.0009476343989614194,
      "loss": 0.3879,
      "num_input_tokens_seen": 5793456,
      "step": 8865
    },
    {
      "epoch": 4.648846960167715,
      "grad_norm": 0.16428081691265106,
      "learning_rate": 0.0009475324666272873,
      "loss": 0.4284,
      "num_input_tokens_seen": 5797104,
      "step": 8870
    },
    {
      "epoch": 4.65146750524109,
      "grad_norm": 0.12285461276769638,
      "learning_rate": 0.0009474304406744689,
      "loss": 0.4644,
      "num_input_tokens_seen": 5800048,
      "step": 8875
    },
    {
      "epoch": 4.654088050314465,
      "grad_norm": 0.12288506329059601,
      "learning_rate": 0.0009473283211243069,
      "loss": 0.5194,
      "num_input_tokens_seen": 5803600,
      "step": 8880
    },
    {
      "epoch": 4.65670859538784,
      "grad_norm": 0.08508511632680893,
      "learning_rate": 0.0009472261079981637,
      "loss": 0.6993,
      "num_input_tokens_seen": 5805776,
      "step": 8885
    },
    {
      "epoch": 4.659329140461216,
      "grad_norm": 0.11951755732297897,
      "learning_rate": 0.0009471238013174206,
      "loss": 0.4584,
      "num_input_tokens_seen": 5808560,
      "step": 8890
    },
    {
      "epoch": 4.661949685534591,
      "grad_norm": 0.05171845480799675,
      "learning_rate": 0.0009470214011034795,
      "loss": 0.443,
      "num_input_tokens_seen": 5812048,
      "step": 8895
    },
    {
      "epoch": 4.664570230607967,
      "grad_norm": 0.07570288330316544,
      "learning_rate": 0.0009469189073777612,
      "loss": 0.5184,
      "num_input_tokens_seen": 5815856,
      "step": 8900
    },
    {
      "epoch": 4.667190775681342,
      "grad_norm": 0.06801845133304596,
      "learning_rate": 0.0009468163201617061,
      "loss": 0.376,
      "num_input_tokens_seen": 5820208,
      "step": 8905
    },
    {
      "epoch": 4.669811320754717,
      "grad_norm": 0.03908568620681763,
      "learning_rate": 0.0009467136394767744,
      "loss": 0.4998,
      "num_input_tokens_seen": 5823888,
      "step": 8910
    },
    {
      "epoch": 4.672431865828092,
      "grad_norm": 0.06307418644428253,
      "learning_rate": 0.0009466108653444458,
      "loss": 0.3497,
      "num_input_tokens_seen": 5826832,
      "step": 8915
    },
    {
      "epoch": 4.6750524109014675,
      "grad_norm": 0.12399660795927048,
      "learning_rate": 0.0009465079977862193,
      "loss": 0.4259,
      "num_input_tokens_seen": 5831344,
      "step": 8920
    },
    {
      "epoch": 4.677672955974843,
      "grad_norm": 0.1019551083445549,
      "learning_rate": 0.0009464050368236137,
      "loss": 0.5069,
      "num_input_tokens_seen": 5835824,
      "step": 8925
    },
    {
      "epoch": 4.680293501048218,
      "grad_norm": 0.11441189050674438,
      "learning_rate": 0.0009463019824781674,
      "loss": 0.6134,
      "num_input_tokens_seen": 5838192,
      "step": 8930
    },
    {
      "epoch": 4.682914046121593,
      "grad_norm": 0.08528793603181839,
      "learning_rate": 0.0009461988347714377,
      "loss": 0.578,
      "num_input_tokens_seen": 5841008,
      "step": 8935
    },
    {
      "epoch": 4.685534591194968,
      "grad_norm": 0.13543711602687836,
      "learning_rate": 0.0009460955937250025,
      "loss": 0.4646,
      "num_input_tokens_seen": 5844592,
      "step": 8940
    },
    {
      "epoch": 4.688155136268344,
      "grad_norm": 0.08393287658691406,
      "learning_rate": 0.0009459922593604584,
      "loss": 0.4162,
      "num_input_tokens_seen": 5850256,
      "step": 8945
    },
    {
      "epoch": 4.690775681341719,
      "grad_norm": 0.17485260963439941,
      "learning_rate": 0.0009458888316994219,
      "loss": 0.4152,
      "num_input_tokens_seen": 5853232,
      "step": 8950
    },
    {
      "epoch": 4.693396226415095,
      "grad_norm": 0.06067005917429924,
      "learning_rate": 0.0009457853107635286,
      "loss": 0.6053,
      "num_input_tokens_seen": 5857584,
      "step": 8955
    },
    {
      "epoch": 4.69601677148847,
      "grad_norm": 0.09509813785552979,
      "learning_rate": 0.0009456816965744342,
      "loss": 0.4973,
      "num_input_tokens_seen": 5860592,
      "step": 8960
    },
    {
      "epoch": 4.698637316561845,
      "grad_norm": 0.06600984930992126,
      "learning_rate": 0.0009455779891538134,
      "loss": 0.5588,
      "num_input_tokens_seen": 5864208,
      "step": 8965
    },
    {
      "epoch": 4.70125786163522,
      "grad_norm": 0.13276848196983337,
      "learning_rate": 0.0009454741885233606,
      "loss": 0.4748,
      "num_input_tokens_seen": 5867728,
      "step": 8970
    },
    {
      "epoch": 4.703878406708595,
      "grad_norm": 0.1265793889760971,
      "learning_rate": 0.0009453702947047899,
      "loss": 0.5993,
      "num_input_tokens_seen": 5871472,
      "step": 8975
    },
    {
      "epoch": 4.70649895178197,
      "grad_norm": 0.059236977249383926,
      "learning_rate": 0.0009452663077198347,
      "loss": 0.3655,
      "num_input_tokens_seen": 5875152,
      "step": 8980
    },
    {
      "epoch": 4.709119496855346,
      "grad_norm": 0.08457896113395691,
      "learning_rate": 0.0009451622275902477,
      "loss": 0.4914,
      "num_input_tokens_seen": 5878192,
      "step": 8985
    },
    {
      "epoch": 4.711740041928721,
      "grad_norm": 0.0623241625726223,
      "learning_rate": 0.0009450580543378013,
      "loss": 0.5167,
      "num_input_tokens_seen": 5881904,
      "step": 8990
    },
    {
      "epoch": 4.714360587002097,
      "grad_norm": 0.11804158240556717,
      "learning_rate": 0.0009449537879842875,
      "loss": 0.5146,
      "num_input_tokens_seen": 5884560,
      "step": 8995
    },
    {
      "epoch": 4.716981132075472,
      "grad_norm": 0.09580567479133606,
      "learning_rate": 0.0009448494285515177,
      "loss": 0.4837,
      "num_input_tokens_seen": 5887344,
      "step": 9000
    },
    {
      "epoch": 4.719601677148847,
      "grad_norm": 0.04708878695964813,
      "learning_rate": 0.0009447449760613222,
      "loss": 0.5522,
      "num_input_tokens_seen": 5891088,
      "step": 9005
    },
    {
      "epoch": 4.722222222222222,
      "grad_norm": 0.059709079563617706,
      "learning_rate": 0.0009446404305355519,
      "loss": 0.4986,
      "num_input_tokens_seen": 5894576,
      "step": 9010
    },
    {
      "epoch": 4.7248427672955975,
      "grad_norm": 0.08969610929489136,
      "learning_rate": 0.0009445357919960762,
      "loss": 0.4921,
      "num_input_tokens_seen": 5898128,
      "step": 9015
    },
    {
      "epoch": 4.727463312368973,
      "grad_norm": 0.08430768549442291,
      "learning_rate": 0.0009444310604647844,
      "loss": 0.4041,
      "num_input_tokens_seen": 5901328,
      "step": 9020
    },
    {
      "epoch": 4.730083857442348,
      "grad_norm": 0.05385475233197212,
      "learning_rate": 0.000944326235963585,
      "loss": 0.3812,
      "num_input_tokens_seen": 5904656,
      "step": 9025
    },
    {
      "epoch": 4.732704402515723,
      "grad_norm": 0.06204528361558914,
      "learning_rate": 0.0009442213185144062,
      "loss": 0.4396,
      "num_input_tokens_seen": 5907728,
      "step": 9030
    },
    {
      "epoch": 4.735324947589098,
      "grad_norm": 0.11554504185914993,
      "learning_rate": 0.0009441163081391954,
      "loss": 0.4205,
      "num_input_tokens_seen": 5910544,
      "step": 9035
    },
    {
      "epoch": 4.737945492662474,
      "grad_norm": 0.04443192854523659,
      "learning_rate": 0.00094401120485992,
      "loss": 0.535,
      "num_input_tokens_seen": 5914096,
      "step": 9040
    },
    {
      "epoch": 4.740566037735849,
      "grad_norm": 0.06475868076086044,
      "learning_rate": 0.0009439060086985658,
      "loss": 0.3726,
      "num_input_tokens_seen": 5916688,
      "step": 9045
    },
    {
      "epoch": 4.743186582809225,
      "grad_norm": 0.08333861827850342,
      "learning_rate": 0.000943800719677139,
      "loss": 0.4403,
      "num_input_tokens_seen": 5919632,
      "step": 9050
    },
    {
      "epoch": 4.7458071278826,
      "grad_norm": 0.0848395824432373,
      "learning_rate": 0.0009436953378176649,
      "loss": 0.5068,
      "num_input_tokens_seen": 5923280,
      "step": 9055
    },
    {
      "epoch": 4.748427672955975,
      "grad_norm": 0.08913365751504898,
      "learning_rate": 0.0009435898631421879,
      "loss": 0.5202,
      "num_input_tokens_seen": 5926384,
      "step": 9060
    },
    {
      "epoch": 4.75104821802935,
      "grad_norm": 0.1772780865430832,
      "learning_rate": 0.0009434842956727724,
      "loss": 0.4948,
      "num_input_tokens_seen": 5929168,
      "step": 9065
    },
    {
      "epoch": 4.753668763102725,
      "grad_norm": 0.20167028903961182,
      "learning_rate": 0.0009433786354315017,
      "loss": 0.5327,
      "num_input_tokens_seen": 5931632,
      "step": 9070
    },
    {
      "epoch": 4.7562893081761,
      "grad_norm": 0.0830099806189537,
      "learning_rate": 0.0009432728824404789,
      "loss": 0.5116,
      "num_input_tokens_seen": 5934736,
      "step": 9075
    },
    {
      "epoch": 4.758909853249476,
      "grad_norm": 0.07746284455060959,
      "learning_rate": 0.0009431670367218262,
      "loss": 0.4387,
      "num_input_tokens_seen": 5937616,
      "step": 9080
    },
    {
      "epoch": 4.761530398322851,
      "grad_norm": 0.09191367775201797,
      "learning_rate": 0.0009430610982976852,
      "loss": 0.468,
      "num_input_tokens_seen": 5940592,
      "step": 9085
    },
    {
      "epoch": 4.764150943396227,
      "grad_norm": 0.06413136422634125,
      "learning_rate": 0.0009429550671902171,
      "loss": 0.3984,
      "num_input_tokens_seen": 5943568,
      "step": 9090
    },
    {
      "epoch": 4.766771488469602,
      "grad_norm": 0.055194124579429626,
      "learning_rate": 0.0009428489434216028,
      "loss": 0.4139,
      "num_input_tokens_seen": 5946960,
      "step": 9095
    },
    {
      "epoch": 4.769392033542977,
      "grad_norm": 0.06370455026626587,
      "learning_rate": 0.0009427427270140415,
      "loss": 0.4241,
      "num_input_tokens_seen": 5950512,
      "step": 9100
    },
    {
      "epoch": 4.772012578616352,
      "grad_norm": 0.07165791839361191,
      "learning_rate": 0.0009426364179897529,
      "loss": 0.5501,
      "num_input_tokens_seen": 5954192,
      "step": 9105
    },
    {
      "epoch": 4.7746331236897275,
      "grad_norm": 0.0710078626871109,
      "learning_rate": 0.0009425300163709756,
      "loss": 0.5393,
      "num_input_tokens_seen": 5957584,
      "step": 9110
    },
    {
      "epoch": 4.777253668763103,
      "grad_norm": 0.07125680148601532,
      "learning_rate": 0.0009424235221799673,
      "loss": 0.5249,
      "num_input_tokens_seen": 5960432,
      "step": 9115
    },
    {
      "epoch": 4.779874213836478,
      "grad_norm": 0.07039711624383926,
      "learning_rate": 0.0009423169354390058,
      "loss": 0.4336,
      "num_input_tokens_seen": 5963984,
      "step": 9120
    },
    {
      "epoch": 4.782494758909853,
      "grad_norm": 0.06595449894666672,
      "learning_rate": 0.0009422102561703875,
      "loss": 0.3616,
      "num_input_tokens_seen": 5967600,
      "step": 9125
    },
    {
      "epoch": 4.785115303983228,
      "grad_norm": 0.06758704036474228,
      "learning_rate": 0.0009421034843964287,
      "loss": 0.5427,
      "num_input_tokens_seen": 5970608,
      "step": 9130
    },
    {
      "epoch": 4.787735849056604,
      "grad_norm": 0.06354991346597672,
      "learning_rate": 0.0009419966201394646,
      "loss": 0.4169,
      "num_input_tokens_seen": 5973840,
      "step": 9135
    },
    {
      "epoch": 4.790356394129979,
      "grad_norm": 0.06639349460601807,
      "learning_rate": 0.0009418896634218503,
      "loss": 0.4246,
      "num_input_tokens_seen": 5977168,
      "step": 9140
    },
    {
      "epoch": 4.7929769392033545,
      "grad_norm": 0.07752709090709686,
      "learning_rate": 0.0009417826142659596,
      "loss": 0.4669,
      "num_input_tokens_seen": 5980528,
      "step": 9145
    },
    {
      "epoch": 4.79559748427673,
      "grad_norm": 0.04611823707818985,
      "learning_rate": 0.0009416754726941863,
      "loss": 0.6066,
      "num_input_tokens_seen": 5984368,
      "step": 9150
    },
    {
      "epoch": 4.798218029350105,
      "grad_norm": 0.07218170166015625,
      "learning_rate": 0.0009415682387289428,
      "loss": 0.4144,
      "num_input_tokens_seen": 5987568,
      "step": 9155
    },
    {
      "epoch": 4.80083857442348,
      "grad_norm": 0.090013287961483,
      "learning_rate": 0.0009414609123926616,
      "loss": 0.4804,
      "num_input_tokens_seen": 5990256,
      "step": 9160
    },
    {
      "epoch": 4.803459119496855,
      "grad_norm": 0.0893300399184227,
      "learning_rate": 0.000941353493707794,
      "loss": 0.5453,
      "num_input_tokens_seen": 5993680,
      "step": 9165
    },
    {
      "epoch": 4.80607966457023,
      "grad_norm": 0.06895521283149719,
      "learning_rate": 0.0009412459826968107,
      "loss": 0.5059,
      "num_input_tokens_seen": 6001392,
      "step": 9170
    },
    {
      "epoch": 4.808700209643606,
      "grad_norm": 0.08176621794700623,
      "learning_rate": 0.0009411383793822017,
      "loss": 0.4397,
      "num_input_tokens_seen": 6004240,
      "step": 9175
    },
    {
      "epoch": 4.811320754716981,
      "grad_norm": 0.22189858555793762,
      "learning_rate": 0.0009410306837864766,
      "loss": 0.5246,
      "num_input_tokens_seen": 6008304,
      "step": 9180
    },
    {
      "epoch": 4.813941299790356,
      "grad_norm": 0.08111048489809036,
      "learning_rate": 0.000940922895932164,
      "loss": 0.5262,
      "num_input_tokens_seen": 6011504,
      "step": 9185
    },
    {
      "epoch": 4.816561844863732,
      "grad_norm": 0.05821610614657402,
      "learning_rate": 0.0009408150158418119,
      "loss": 0.4729,
      "num_input_tokens_seen": 6014192,
      "step": 9190
    },
    {
      "epoch": 4.819182389937107,
      "grad_norm": 0.07914326339960098,
      "learning_rate": 0.0009407070435379876,
      "loss": 0.5572,
      "num_input_tokens_seen": 6016560,
      "step": 9195
    },
    {
      "epoch": 4.821802935010482,
      "grad_norm": 0.11154524236917496,
      "learning_rate": 0.0009405989790432776,
      "loss": 0.5752,
      "num_input_tokens_seen": 6019120,
      "step": 9200
    },
    {
      "epoch": 4.8244234800838575,
      "grad_norm": 0.07703068852424622,
      "learning_rate": 0.0009404908223802877,
      "loss": 0.4611,
      "num_input_tokens_seen": 6022672,
      "step": 9205
    },
    {
      "epoch": 4.827044025157233,
      "grad_norm": 0.10450834780931473,
      "learning_rate": 0.0009403825735716433,
      "loss": 0.3683,
      "num_input_tokens_seen": 6025520,
      "step": 9210
    },
    {
      "epoch": 4.829664570230608,
      "grad_norm": 0.08003510534763336,
      "learning_rate": 0.0009402742326399887,
      "loss": 0.4633,
      "num_input_tokens_seen": 6028208,
      "step": 9215
    },
    {
      "epoch": 4.832285115303983,
      "grad_norm": 0.12729200720787048,
      "learning_rate": 0.0009401657996079873,
      "loss": 0.491,
      "num_input_tokens_seen": 6031760,
      "step": 9220
    },
    {
      "epoch": 4.834905660377358,
      "grad_norm": 0.06368748098611832,
      "learning_rate": 0.0009400572744983224,
      "loss": 0.4657,
      "num_input_tokens_seen": 6034128,
      "step": 9225
    },
    {
      "epoch": 4.837526205450734,
      "grad_norm": 0.09509178251028061,
      "learning_rate": 0.0009399486573336963,
      "loss": 0.5249,
      "num_input_tokens_seen": 6036976,
      "step": 9230
    },
    {
      "epoch": 4.840146750524109,
      "grad_norm": 0.06329438090324402,
      "learning_rate": 0.00093983994813683,
      "loss": 0.6069,
      "num_input_tokens_seen": 6040272,
      "step": 9235
    },
    {
      "epoch": 4.8427672955974845,
      "grad_norm": 0.07176070660352707,
      "learning_rate": 0.0009397311469304648,
      "loss": 0.5016,
      "num_input_tokens_seen": 6042768,
      "step": 9240
    },
    {
      "epoch": 4.84538784067086,
      "grad_norm": 0.10039448738098145,
      "learning_rate": 0.0009396222537373602,
      "loss": 0.3669,
      "num_input_tokens_seen": 6046672,
      "step": 9245
    },
    {
      "epoch": 4.848008385744235,
      "grad_norm": 0.07017985731363297,
      "learning_rate": 0.0009395132685802956,
      "loss": 0.3816,
      "num_input_tokens_seen": 6049328,
      "step": 9250
    },
    {
      "epoch": 4.85062893081761,
      "grad_norm": 0.09865248948335648,
      "learning_rate": 0.0009394041914820695,
      "loss": 0.4495,
      "num_input_tokens_seen": 6053168,
      "step": 9255
    },
    {
      "epoch": 4.853249475890985,
      "grad_norm": 0.07962626963853836,
      "learning_rate": 0.0009392950224654994,
      "loss": 0.5226,
      "num_input_tokens_seen": 6056560,
      "step": 9260
    },
    {
      "epoch": 4.85587002096436,
      "grad_norm": 0.09983225911855698,
      "learning_rate": 0.0009391857615534225,
      "loss": 0.3759,
      "num_input_tokens_seen": 6059856,
      "step": 9265
    },
    {
      "epoch": 4.8584905660377355,
      "grad_norm": 0.0698840543627739,
      "learning_rate": 0.0009390764087686948,
      "loss": 0.5669,
      "num_input_tokens_seen": 6063280,
      "step": 9270
    },
    {
      "epoch": 4.861111111111111,
      "grad_norm": 0.07759213447570801,
      "learning_rate": 0.0009389669641341916,
      "loss": 0.5425,
      "num_input_tokens_seen": 6066256,
      "step": 9275
    },
    {
      "epoch": 4.863731656184486,
      "grad_norm": 0.14426304399967194,
      "learning_rate": 0.0009388574276728075,
      "loss": 0.5071,
      "num_input_tokens_seen": 6069008,
      "step": 9280
    },
    {
      "epoch": 4.866352201257862,
      "grad_norm": 0.0668935477733612,
      "learning_rate": 0.0009387477994074562,
      "loss": 0.4663,
      "num_input_tokens_seen": 6072848,
      "step": 9285
    },
    {
      "epoch": 4.868972746331237,
      "grad_norm": 0.16777902841567993,
      "learning_rate": 0.0009386380793610707,
      "loss": 0.454,
      "num_input_tokens_seen": 6075536,
      "step": 9290
    },
    {
      "epoch": 4.871593291404612,
      "grad_norm": 0.06417397409677505,
      "learning_rate": 0.0009385282675566034,
      "loss": 0.451,
      "num_input_tokens_seen": 6079376,
      "step": 9295
    },
    {
      "epoch": 4.8742138364779874,
      "grad_norm": 0.05328642949461937,
      "learning_rate": 0.0009384183640170255,
      "loss": 0.378,
      "num_input_tokens_seen": 6083056,
      "step": 9300
    },
    {
      "epoch": 4.876834381551363,
      "grad_norm": 0.0918438583612442,
      "learning_rate": 0.0009383083687653275,
      "loss": 0.4692,
      "num_input_tokens_seen": 6085520,
      "step": 9305
    },
    {
      "epoch": 4.879454926624738,
      "grad_norm": 0.11882360279560089,
      "learning_rate": 0.0009381982818245193,
      "loss": 0.524,
      "num_input_tokens_seen": 6089040,
      "step": 9310
    },
    {
      "epoch": 4.882075471698113,
      "grad_norm": 0.12196103483438492,
      "learning_rate": 0.0009380881032176299,
      "loss": 0.3733,
      "num_input_tokens_seen": 6092016,
      "step": 9315
    },
    {
      "epoch": 4.884696016771488,
      "grad_norm": 0.08409635722637177,
      "learning_rate": 0.0009379778329677071,
      "loss": 0.5467,
      "num_input_tokens_seen": 6094608,
      "step": 9320
    },
    {
      "epoch": 4.887316561844864,
      "grad_norm": 0.06606346368789673,
      "learning_rate": 0.0009378674710978184,
      "loss": 0.326,
      "num_input_tokens_seen": 6097520,
      "step": 9325
    },
    {
      "epoch": 4.889937106918239,
      "grad_norm": 0.09828898310661316,
      "learning_rate": 0.0009377570176310503,
      "loss": 0.3784,
      "num_input_tokens_seen": 6100464,
      "step": 9330
    },
    {
      "epoch": 4.8925576519916145,
      "grad_norm": 0.060888879001140594,
      "learning_rate": 0.0009376464725905082,
      "loss": 0.5055,
      "num_input_tokens_seen": 6104304,
      "step": 9335
    },
    {
      "epoch": 4.89517819706499,
      "grad_norm": 0.06326384097337723,
      "learning_rate": 0.000937535835999317,
      "loss": 0.4233,
      "num_input_tokens_seen": 6107856,
      "step": 9340
    },
    {
      "epoch": 4.897798742138365,
      "grad_norm": 0.06095563992857933,
      "learning_rate": 0.0009374251078806206,
      "loss": 0.5023,
      "num_input_tokens_seen": 6110832,
      "step": 9345
    },
    {
      "epoch": 4.90041928721174,
      "grad_norm": 0.07737067341804504,
      "learning_rate": 0.000937314288257582,
      "loss": 0.3832,
      "num_input_tokens_seen": 6114576,
      "step": 9350
    },
    {
      "epoch": 4.903039832285115,
      "grad_norm": 0.07047216594219208,
      "learning_rate": 0.0009372033771533835,
      "loss": 0.3748,
      "num_input_tokens_seen": 6118512,
      "step": 9355
    },
    {
      "epoch": 4.90566037735849,
      "grad_norm": 0.09610489010810852,
      "learning_rate": 0.0009370923745912264,
      "loss": 0.433,
      "num_input_tokens_seen": 6121872,
      "step": 9360
    },
    {
      "epoch": 4.9082809224318655,
      "grad_norm": 0.0501365028321743,
      "learning_rate": 0.000936981280594331,
      "loss": 0.5767,
      "num_input_tokens_seen": 6125520,
      "step": 9365
    },
    {
      "epoch": 4.910901467505241,
      "grad_norm": 0.04134431853890419,
      "learning_rate": 0.0009368700951859371,
      "loss": 0.4631,
      "num_input_tokens_seen": 6129936,
      "step": 9370
    },
    {
      "epoch": 4.913522012578616,
      "grad_norm": 0.08375494927167892,
      "learning_rate": 0.0009367588183893035,
      "loss": 0.7138,
      "num_input_tokens_seen": 6132656,
      "step": 9375
    },
    {
      "epoch": 4.916142557651992,
      "grad_norm": 0.08453641831874847,
      "learning_rate": 0.0009366474502277076,
      "loss": 0.4502,
      "num_input_tokens_seen": 6136528,
      "step": 9380
    },
    {
      "epoch": 4.918763102725367,
      "grad_norm": 0.06782544404268265,
      "learning_rate": 0.0009365359907244469,
      "loss": 0.4111,
      "num_input_tokens_seen": 6139248,
      "step": 9385
    },
    {
      "epoch": 4.921383647798742,
      "grad_norm": 0.056011006236076355,
      "learning_rate": 0.0009364244399028372,
      "loss": 0.4642,
      "num_input_tokens_seen": 6142864,
      "step": 9390
    },
    {
      "epoch": 4.924004192872117,
      "grad_norm": 0.06808238476514816,
      "learning_rate": 0.0009363127977862136,
      "loss": 0.6662,
      "num_input_tokens_seen": 6146128,
      "step": 9395
    },
    {
      "epoch": 4.926624737945493,
      "grad_norm": 0.10671795159578323,
      "learning_rate": 0.0009362010643979304,
      "loss": 0.5275,
      "num_input_tokens_seen": 6148976,
      "step": 9400
    },
    {
      "epoch": 4.929245283018868,
      "grad_norm": 0.07076670229434967,
      "learning_rate": 0.000936089239761361,
      "loss": 0.6255,
      "num_input_tokens_seen": 6151952,
      "step": 9405
    },
    {
      "epoch": 4.931865828092243,
      "grad_norm": 0.07806580513715744,
      "learning_rate": 0.0009359773238998978,
      "loss": 0.6082,
      "num_input_tokens_seen": 6155376,
      "step": 9410
    },
    {
      "epoch": 4.934486373165618,
      "grad_norm": 0.14855080842971802,
      "learning_rate": 0.0009358653168369524,
      "loss": 0.5167,
      "num_input_tokens_seen": 6157936,
      "step": 9415
    },
    {
      "epoch": 4.937106918238994,
      "grad_norm": 0.08505308628082275,
      "learning_rate": 0.0009357532185959554,
      "loss": 0.4609,
      "num_input_tokens_seen": 6163632,
      "step": 9420
    },
    {
      "epoch": 4.939727463312369,
      "grad_norm": 0.07713615894317627,
      "learning_rate": 0.0009356410292003562,
      "loss": 0.4482,
      "num_input_tokens_seen": 6166800,
      "step": 9425
    },
    {
      "epoch": 4.9423480083857445,
      "grad_norm": 0.09876548498868942,
      "learning_rate": 0.0009355287486736239,
      "loss": 0.4784,
      "num_input_tokens_seen": 6170384,
      "step": 9430
    },
    {
      "epoch": 4.94496855345912,
      "grad_norm": 0.05151153728365898,
      "learning_rate": 0.0009354163770392461,
      "loss": 0.4252,
      "num_input_tokens_seen": 6173488,
      "step": 9435
    },
    {
      "epoch": 4.947589098532495,
      "grad_norm": 0.05073051154613495,
      "learning_rate": 0.0009353039143207295,
      "loss": 0.467,
      "num_input_tokens_seen": 6176560,
      "step": 9440
    },
    {
      "epoch": 4.95020964360587,
      "grad_norm": 0.02589048445224762,
      "learning_rate": 0.0009351913605416007,
      "loss": 0.4909,
      "num_input_tokens_seen": 6180496,
      "step": 9445
    },
    {
      "epoch": 4.952830188679245,
      "grad_norm": 0.07968400418758392,
      "learning_rate": 0.000935078715725404,
      "loss": 0.5151,
      "num_input_tokens_seen": 6183344,
      "step": 9450
    },
    {
      "epoch": 4.95545073375262,
      "grad_norm": 0.05549042671918869,
      "learning_rate": 0.0009349659798957034,
      "loss": 0.4312,
      "num_input_tokens_seen": 6186320,
      "step": 9455
    },
    {
      "epoch": 4.9580712788259955,
      "grad_norm": 0.06303390115499496,
      "learning_rate": 0.0009348531530760823,
      "loss": 0.4275,
      "num_input_tokens_seen": 6189904,
      "step": 9460
    },
    {
      "epoch": 4.960691823899371,
      "grad_norm": 0.06768190860748291,
      "learning_rate": 0.0009347402352901426,
      "loss": 0.5491,
      "num_input_tokens_seen": 6194000,
      "step": 9465
    },
    {
      "epoch": 4.963312368972746,
      "grad_norm": 0.08269393444061279,
      "learning_rate": 0.0009346272265615057,
      "loss": 0.4366,
      "num_input_tokens_seen": 6197040,
      "step": 9470
    },
    {
      "epoch": 4.965932914046122,
      "grad_norm": 0.04276503995060921,
      "learning_rate": 0.0009345141269138112,
      "loss": 0.3845,
      "num_input_tokens_seen": 6200944,
      "step": 9475
    },
    {
      "epoch": 4.968553459119497,
      "grad_norm": 0.1408894956111908,
      "learning_rate": 0.0009344009363707186,
      "loss": 0.478,
      "num_input_tokens_seen": 6203216,
      "step": 9480
    },
    {
      "epoch": 4.971174004192872,
      "grad_norm": 0.07461196184158325,
      "learning_rate": 0.000934287654955906,
      "loss": 0.4096,
      "num_input_tokens_seen": 6206384,
      "step": 9485
    },
    {
      "epoch": 4.973794549266247,
      "grad_norm": 0.12186121195554733,
      "learning_rate": 0.0009341742826930708,
      "loss": 0.4907,
      "num_input_tokens_seen": 6209872,
      "step": 9490
    },
    {
      "epoch": 4.976415094339623,
      "grad_norm": 0.07254267483949661,
      "learning_rate": 0.0009340608196059289,
      "loss": 0.5167,
      "num_input_tokens_seen": 6213328,
      "step": 9495
    },
    {
      "epoch": 4.979035639412998,
      "grad_norm": 0.08905037492513657,
      "learning_rate": 0.0009339472657182155,
      "loss": 0.4511,
      "num_input_tokens_seen": 6216784,
      "step": 9500
    },
    {
      "epoch": 4.981656184486373,
      "grad_norm": 0.07600961625576019,
      "learning_rate": 0.0009338336210536848,
      "loss": 0.5056,
      "num_input_tokens_seen": 6220016,
      "step": 9505
    },
    {
      "epoch": 4.984276729559748,
      "grad_norm": 0.0721650943160057,
      "learning_rate": 0.0009337198856361102,
      "loss": 0.4164,
      "num_input_tokens_seen": 6222672,
      "step": 9510
    },
    {
      "epoch": 4.986897274633124,
      "grad_norm": 0.055268239229917526,
      "learning_rate": 0.0009336060594892834,
      "loss": 0.471,
      "num_input_tokens_seen": 6226224,
      "step": 9515
    },
    {
      "epoch": 4.989517819706499,
      "grad_norm": 0.08936664462089539,
      "learning_rate": 0.000933492142637016,
      "loss": 0.4112,
      "num_input_tokens_seen": 6228688,
      "step": 9520
    },
    {
      "epoch": 4.9921383647798745,
      "grad_norm": 0.06207980588078499,
      "learning_rate": 0.0009333781351031379,
      "loss": 0.4512,
      "num_input_tokens_seen": 6231440,
      "step": 9525
    },
    {
      "epoch": 4.99475890985325,
      "grad_norm": 0.10066891461610794,
      "learning_rate": 0.0009332640369114981,
      "loss": 0.5689,
      "num_input_tokens_seen": 6234160,
      "step": 9530
    },
    {
      "epoch": 4.997379454926625,
      "grad_norm": 0.0984421968460083,
      "learning_rate": 0.0009331498480859647,
      "loss": 0.3379,
      "num_input_tokens_seen": 6237232,
      "step": 9535
    },
    {
      "epoch": 5.0,
      "grad_norm": 2.989427089691162,
      "learning_rate": 0.0009330355686504247,
      "loss": 1.0149,
      "num_input_tokens_seen": 6239608,
      "step": 9540
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.4550928771495819,
      "eval_runtime": 13.3134,
      "eval_samples_per_second": 63.695,
      "eval_steps_per_second": 15.924,
      "num_input_tokens_seen": 6239608,
      "step": 9540
    },
    {
      "epoch": 5.002620545073375,
      "grad_norm": 0.06588145345449448,
      "learning_rate": 0.0009329211986287842,
      "loss": 0.461,
      "num_input_tokens_seen": 6242936,
      "step": 9545
    },
    {
      "epoch": 5.00524109014675,
      "grad_norm": 0.08393779397010803,
      "learning_rate": 0.0009328067380449678,
      "loss": 0.5739,
      "num_input_tokens_seen": 6246392,
      "step": 9550
    },
    {
      "epoch": 5.0078616352201255,
      "grad_norm": 0.0768410712480545,
      "learning_rate": 0.0009326921869229197,
      "loss": 0.5812,
      "num_input_tokens_seen": 6250008,
      "step": 9555
    },
    {
      "epoch": 5.010482180293501,
      "grad_norm": 0.08405537158250809,
      "learning_rate": 0.0009325775452866023,
      "loss": 0.4512,
      "num_input_tokens_seen": 6253336,
      "step": 9560
    },
    {
      "epoch": 5.013102725366877,
      "grad_norm": 0.05915292352437973,
      "learning_rate": 0.0009324628131599977,
      "loss": 0.3797,
      "num_input_tokens_seen": 6256888,
      "step": 9565
    },
    {
      "epoch": 5.015723270440252,
      "grad_norm": 0.08984453976154327,
      "learning_rate": 0.0009323479905671064,
      "loss": 0.4649,
      "num_input_tokens_seen": 6259768,
      "step": 9570
    },
    {
      "epoch": 5.018343815513627,
      "grad_norm": 0.22172677516937256,
      "learning_rate": 0.0009322330775319479,
      "loss": 0.4836,
      "num_input_tokens_seen": 6262616,
      "step": 9575
    },
    {
      "epoch": 5.020964360587002,
      "grad_norm": 0.06230014190077782,
      "learning_rate": 0.0009321180740785607,
      "loss": 0.3289,
      "num_input_tokens_seen": 6265624,
      "step": 9580
    },
    {
      "epoch": 5.023584905660377,
      "grad_norm": 0.07414766401052475,
      "learning_rate": 0.0009320029802310023,
      "loss": 0.6169,
      "num_input_tokens_seen": 6269304,
      "step": 9585
    },
    {
      "epoch": 5.026205450733753,
      "grad_norm": 0.05743436515331268,
      "learning_rate": 0.0009318877960133489,
      "loss": 0.4801,
      "num_input_tokens_seen": 6272312,
      "step": 9590
    },
    {
      "epoch": 5.028825995807128,
      "grad_norm": 0.1201343983411789,
      "learning_rate": 0.0009317725214496959,
      "loss": 0.4662,
      "num_input_tokens_seen": 6274904,
      "step": 9595
    },
    {
      "epoch": 5.031446540880503,
      "grad_norm": 0.07522178441286087,
      "learning_rate": 0.0009316571565641574,
      "loss": 0.4623,
      "num_input_tokens_seen": 6278104,
      "step": 9600
    },
    {
      "epoch": 5.034067085953878,
      "grad_norm": 0.05942556634545326,
      "learning_rate": 0.0009315417013808663,
      "loss": 0.4109,
      "num_input_tokens_seen": 6281656,
      "step": 9605
    },
    {
      "epoch": 5.036687631027253,
      "grad_norm": 0.06646173447370529,
      "learning_rate": 0.0009314261559239745,
      "loss": 0.5508,
      "num_input_tokens_seen": 6285240,
      "step": 9610
    },
    {
      "epoch": 5.039308176100629,
      "grad_norm": 0.08222392946481705,
      "learning_rate": 0.000931310520217653,
      "loss": 0.5013,
      "num_input_tokens_seen": 6287768,
      "step": 9615
    },
    {
      "epoch": 5.0419287211740045,
      "grad_norm": 0.07162414491176605,
      "learning_rate": 0.0009311947942860912,
      "loss": 0.4484,
      "num_input_tokens_seen": 6291128,
      "step": 9620
    },
    {
      "epoch": 5.04454926624738,
      "grad_norm": 0.08599549531936646,
      "learning_rate": 0.0009310789781534979,
      "loss": 0.2667,
      "num_input_tokens_seen": 6295416,
      "step": 9625
    },
    {
      "epoch": 5.047169811320755,
      "grad_norm": 0.10542939603328705,
      "learning_rate": 0.0009309630718441003,
      "loss": 0.4777,
      "num_input_tokens_seen": 6299000,
      "step": 9630
    },
    {
      "epoch": 5.04979035639413,
      "grad_norm": 0.08193901181221008,
      "learning_rate": 0.0009308470753821445,
      "loss": 0.4753,
      "num_input_tokens_seen": 6302680,
      "step": 9635
    },
    {
      "epoch": 5.052410901467505,
      "grad_norm": 0.10459746420383453,
      "learning_rate": 0.0009307309887918962,
      "loss": 0.449,
      "num_input_tokens_seen": 6306744,
      "step": 9640
    },
    {
      "epoch": 5.05503144654088,
      "grad_norm": 0.09055739641189575,
      "learning_rate": 0.000930614812097639,
      "loss": 0.5982,
      "num_input_tokens_seen": 6309400,
      "step": 9645
    },
    {
      "epoch": 5.0576519916142555,
      "grad_norm": 0.05349614843726158,
      "learning_rate": 0.0009304985453236758,
      "loss": 0.407,
      "num_input_tokens_seen": 6312728,
      "step": 9650
    },
    {
      "epoch": 5.060272536687631,
      "grad_norm": 0.0834326222538948,
      "learning_rate": 0.0009303821884943284,
      "loss": 0.5622,
      "num_input_tokens_seen": 6315960,
      "step": 9655
    },
    {
      "epoch": 5.062893081761007,
      "grad_norm": 0.04094548523426056,
      "learning_rate": 0.0009302657416339371,
      "loss": 0.4029,
      "num_input_tokens_seen": 6319320,
      "step": 9660
    },
    {
      "epoch": 5.065513626834382,
      "grad_norm": 0.09288406372070312,
      "learning_rate": 0.0009301492047668615,
      "loss": 0.5748,
      "num_input_tokens_seen": 6321656,
      "step": 9665
    },
    {
      "epoch": 5.068134171907757,
      "grad_norm": 0.12138567864894867,
      "learning_rate": 0.0009300325779174796,
      "loss": 0.414,
      "num_input_tokens_seen": 6324664,
      "step": 9670
    },
    {
      "epoch": 5.070754716981132,
      "grad_norm": 0.0799226388335228,
      "learning_rate": 0.0009299158611101885,
      "loss": 0.4915,
      "num_input_tokens_seen": 6327192,
      "step": 9675
    },
    {
      "epoch": 5.073375262054507,
      "grad_norm": 0.09456551820039749,
      "learning_rate": 0.000929799054369404,
      "loss": 0.4279,
      "num_input_tokens_seen": 6330232,
      "step": 9680
    },
    {
      "epoch": 5.075995807127883,
      "grad_norm": 0.08160440623760223,
      "learning_rate": 0.0009296821577195606,
      "loss": 0.4758,
      "num_input_tokens_seen": 6332600,
      "step": 9685
    },
    {
      "epoch": 5.078616352201258,
      "grad_norm": 0.056794650852680206,
      "learning_rate": 0.000929565171185112,
      "loss": 0.5291,
      "num_input_tokens_seen": 6336600,
      "step": 9690
    },
    {
      "epoch": 5.081236897274633,
      "grad_norm": 0.10423137247562408,
      "learning_rate": 0.0009294480947905304,
      "loss": 0.4647,
      "num_input_tokens_seen": 6339640,
      "step": 9695
    },
    {
      "epoch": 5.083857442348008,
      "grad_norm": 0.0742267295718193,
      "learning_rate": 0.0009293309285603067,
      "loss": 0.6588,
      "num_input_tokens_seen": 6342840,
      "step": 9700
    },
    {
      "epoch": 5.086477987421383,
      "grad_norm": 0.10849108546972275,
      "learning_rate": 0.0009292136725189506,
      "loss": 0.536,
      "num_input_tokens_seen": 6346008,
      "step": 9705
    },
    {
      "epoch": 5.089098532494759,
      "grad_norm": 0.08319469541311264,
      "learning_rate": 0.0009290963266909912,
      "loss": 0.4375,
      "num_input_tokens_seen": 6349016,
      "step": 9710
    },
    {
      "epoch": 5.0917190775681345,
      "grad_norm": 0.06062919646501541,
      "learning_rate": 0.0009289788911009756,
      "loss": 0.4305,
      "num_input_tokens_seen": 6352952,
      "step": 9715
    },
    {
      "epoch": 5.09433962264151,
      "grad_norm": 0.11366414278745651,
      "learning_rate": 0.0009288613657734699,
      "loss": 0.4542,
      "num_input_tokens_seen": 6356504,
      "step": 9720
    },
    {
      "epoch": 5.096960167714885,
      "grad_norm": 0.06616342812776566,
      "learning_rate": 0.0009287437507330594,
      "loss": 0.4393,
      "num_input_tokens_seen": 6359256,
      "step": 9725
    },
    {
      "epoch": 5.09958071278826,
      "grad_norm": 0.06535527110099792,
      "learning_rate": 0.0009286260460043475,
      "loss": 0.4908,
      "num_input_tokens_seen": 6362520,
      "step": 9730
    },
    {
      "epoch": 5.102201257861635,
      "grad_norm": 0.06010853871703148,
      "learning_rate": 0.0009285082516119567,
      "loss": 0.5294,
      "num_input_tokens_seen": 6365368,
      "step": 9735
    },
    {
      "epoch": 5.10482180293501,
      "grad_norm": 0.08820293098688126,
      "learning_rate": 0.0009283903675805285,
      "loss": 0.6626,
      "num_input_tokens_seen": 6367896,
      "step": 9740
    },
    {
      "epoch": 5.1074423480083855,
      "grad_norm": 0.13907188177108765,
      "learning_rate": 0.0009282723939347227,
      "loss": 0.4771,
      "num_input_tokens_seen": 6371384,
      "step": 9745
    },
    {
      "epoch": 5.110062893081761,
      "grad_norm": 0.08982918411493301,
      "learning_rate": 0.0009281543306992181,
      "loss": 0.4242,
      "num_input_tokens_seen": 6375128,
      "step": 9750
    },
    {
      "epoch": 5.112683438155136,
      "grad_norm": 0.07107742130756378,
      "learning_rate": 0.0009280361778987121,
      "loss": 0.3388,
      "num_input_tokens_seen": 6377304,
      "step": 9755
    },
    {
      "epoch": 5.115303983228512,
      "grad_norm": 0.09060779958963394,
      "learning_rate": 0.0009279179355579211,
      "loss": 0.4598,
      "num_input_tokens_seen": 6379992,
      "step": 9760
    },
    {
      "epoch": 5.117924528301887,
      "grad_norm": 0.13301530480384827,
      "learning_rate": 0.0009277996037015798,
      "loss": 0.4717,
      "num_input_tokens_seen": 6383000,
      "step": 9765
    },
    {
      "epoch": 5.120545073375262,
      "grad_norm": 0.0883302092552185,
      "learning_rate": 0.000927681182354442,
      "loss": 0.4203,
      "num_input_tokens_seen": 6386776,
      "step": 9770
    },
    {
      "epoch": 5.123165618448637,
      "grad_norm": 0.09491907060146332,
      "learning_rate": 0.0009275626715412802,
      "loss": 0.4677,
      "num_input_tokens_seen": 6390424,
      "step": 9775
    },
    {
      "epoch": 5.1257861635220126,
      "grad_norm": 0.09978929162025452,
      "learning_rate": 0.0009274440712868853,
      "loss": 0.6412,
      "num_input_tokens_seen": 6392888,
      "step": 9780
    },
    {
      "epoch": 5.128406708595388,
      "grad_norm": 0.06290402263402939,
      "learning_rate": 0.0009273253816160673,
      "loss": 0.4598,
      "num_input_tokens_seen": 6396728,
      "step": 9785
    },
    {
      "epoch": 5.131027253668763,
      "grad_norm": 0.06804949790239334,
      "learning_rate": 0.0009272066025536545,
      "loss": 0.4711,
      "num_input_tokens_seen": 6400088,
      "step": 9790
    },
    {
      "epoch": 5.133647798742138,
      "grad_norm": 0.06633710861206055,
      "learning_rate": 0.0009270877341244945,
      "loss": 0.4681,
      "num_input_tokens_seen": 6403032,
      "step": 9795
    },
    {
      "epoch": 5.136268343815513,
      "grad_norm": 0.0705498605966568,
      "learning_rate": 0.0009269687763534529,
      "loss": 0.4648,
      "num_input_tokens_seen": 6405944,
      "step": 9800
    },
    {
      "epoch": 5.138888888888889,
      "grad_norm": 0.07043278217315674,
      "learning_rate": 0.0009268497292654143,
      "loss": 0.4537,
      "num_input_tokens_seen": 6409048,
      "step": 9805
    },
    {
      "epoch": 5.1415094339622645,
      "grad_norm": 0.08280067145824432,
      "learning_rate": 0.0009267305928852823,
      "loss": 0.4171,
      "num_input_tokens_seen": 6412920,
      "step": 9810
    },
    {
      "epoch": 5.14412997903564,
      "grad_norm": 0.07607216387987137,
      "learning_rate": 0.0009266113672379786,
      "loss": 0.4612,
      "num_input_tokens_seen": 6416120,
      "step": 9815
    },
    {
      "epoch": 5.146750524109015,
      "grad_norm": 0.08414244651794434,
      "learning_rate": 0.0009264920523484437,
      "loss": 0.62,
      "num_input_tokens_seen": 6419896,
      "step": 9820
    },
    {
      "epoch": 5.14937106918239,
      "grad_norm": 0.07812345027923584,
      "learning_rate": 0.0009263726482416374,
      "loss": 0.4354,
      "num_input_tokens_seen": 6423096,
      "step": 9825
    },
    {
      "epoch": 5.151991614255765,
      "grad_norm": 0.09500999748706818,
      "learning_rate": 0.0009262531549425372,
      "loss": 0.4989,
      "num_input_tokens_seen": 6425592,
      "step": 9830
    },
    {
      "epoch": 5.15461215932914,
      "grad_norm": 0.11339692026376724,
      "learning_rate": 0.0009261335724761402,
      "loss": 0.4282,
      "num_input_tokens_seen": 6429304,
      "step": 9835
    },
    {
      "epoch": 5.1572327044025155,
      "grad_norm": 0.11533977836370468,
      "learning_rate": 0.0009260139008674612,
      "loss": 0.4138,
      "num_input_tokens_seen": 6432984,
      "step": 9840
    },
    {
      "epoch": 5.159853249475891,
      "grad_norm": 0.07334181666374207,
      "learning_rate": 0.0009258941401415344,
      "loss": 0.41,
      "num_input_tokens_seen": 6436376,
      "step": 9845
    },
    {
      "epoch": 5.162473794549266,
      "grad_norm": 0.11834476888179779,
      "learning_rate": 0.0009257742903234123,
      "loss": 0.5131,
      "num_input_tokens_seen": 6439544,
      "step": 9850
    },
    {
      "epoch": 5.165094339622642,
      "grad_norm": 0.08933410793542862,
      "learning_rate": 0.0009256543514381664,
      "loss": 0.4597,
      "num_input_tokens_seen": 6443128,
      "step": 9855
    },
    {
      "epoch": 5.167714884696017,
      "grad_norm": 0.07787276059389114,
      "learning_rate": 0.0009255343235108859,
      "loss": 0.5287,
      "num_input_tokens_seen": 6446456,
      "step": 9860
    },
    {
      "epoch": 5.170335429769392,
      "grad_norm": 0.15116183459758759,
      "learning_rate": 0.00092541420656668,
      "loss": 0.4917,
      "num_input_tokens_seen": 6449272,
      "step": 9865
    },
    {
      "epoch": 5.172955974842767,
      "grad_norm": 0.10523030906915665,
      "learning_rate": 0.0009252940006306753,
      "loss": 0.5708,
      "num_input_tokens_seen": 6452632,
      "step": 9870
    },
    {
      "epoch": 5.1755765199161425,
      "grad_norm": 0.0720222219824791,
      "learning_rate": 0.0009251737057280179,
      "loss": 0.3707,
      "num_input_tokens_seen": 6454936,
      "step": 9875
    },
    {
      "epoch": 5.178197064989518,
      "grad_norm": 0.0885033905506134,
      "learning_rate": 0.0009250533218838717,
      "loss": 0.4465,
      "num_input_tokens_seen": 6458168,
      "step": 9880
    },
    {
      "epoch": 5.180817610062893,
      "grad_norm": 0.0873635858297348,
      "learning_rate": 0.0009249328491234199,
      "loss": 0.5291,
      "num_input_tokens_seen": 6462392,
      "step": 9885
    },
    {
      "epoch": 5.183438155136268,
      "grad_norm": 0.05732523277401924,
      "learning_rate": 0.0009248122874718638,
      "loss": 0.5385,
      "num_input_tokens_seen": 6470968,
      "step": 9890
    },
    {
      "epoch": 5.186058700209643,
      "grad_norm": 0.0890372022986412,
      "learning_rate": 0.0009246916369544238,
      "loss": 0.4906,
      "num_input_tokens_seen": 6473880,
      "step": 9895
    },
    {
      "epoch": 5.188679245283019,
      "grad_norm": 0.09558074921369553,
      "learning_rate": 0.0009245708975963386,
      "loss": 0.4933,
      "num_input_tokens_seen": 6476504,
      "step": 9900
    },
    {
      "epoch": 5.191299790356394,
      "grad_norm": 0.16180047392845154,
      "learning_rate": 0.0009244500694228653,
      "loss": 0.4755,
      "num_input_tokens_seen": 6479032,
      "step": 9905
    },
    {
      "epoch": 5.19392033542977,
      "grad_norm": 0.05435614287853241,
      "learning_rate": 0.0009243291524592799,
      "loss": 0.412,
      "num_input_tokens_seen": 6482392,
      "step": 9910
    },
    {
      "epoch": 5.196540880503145,
      "grad_norm": 0.07619491964578629,
      "learning_rate": 0.0009242081467308766,
      "loss": 0.5193,
      "num_input_tokens_seen": 6485816,
      "step": 9915
    },
    {
      "epoch": 5.19916142557652,
      "grad_norm": 0.07678204774856567,
      "learning_rate": 0.0009240870522629688,
      "loss": 0.4193,
      "num_input_tokens_seen": 6489112,
      "step": 9920
    },
    {
      "epoch": 5.201781970649895,
      "grad_norm": 0.13120628893375397,
      "learning_rate": 0.0009239658690808879,
      "loss": 0.4789,
      "num_input_tokens_seen": 6492248,
      "step": 9925
    },
    {
      "epoch": 5.20440251572327,
      "grad_norm": 0.08816053718328476,
      "learning_rate": 0.000923844597209984,
      "loss": 0.5572,
      "num_input_tokens_seen": 6496600,
      "step": 9930
    },
    {
      "epoch": 5.2070230607966455,
      "grad_norm": 0.06968910992145538,
      "learning_rate": 0.0009237232366756258,
      "loss": 0.3178,
      "num_input_tokens_seen": 6499256,
      "step": 9935
    },
    {
      "epoch": 5.209643605870021,
      "grad_norm": 0.1019541323184967,
      "learning_rate": 0.0009236017875032007,
      "loss": 0.4939,
      "num_input_tokens_seen": 6502360,
      "step": 9940
    },
    {
      "epoch": 5.212264150943396,
      "grad_norm": 0.06736676394939423,
      "learning_rate": 0.0009234802497181143,
      "loss": 0.3445,
      "num_input_tokens_seen": 6504792,
      "step": 9945
    },
    {
      "epoch": 5.214884696016772,
      "grad_norm": 0.07672244310379028,
      "learning_rate": 0.0009233586233457909,
      "loss": 0.4819,
      "num_input_tokens_seen": 6507992,
      "step": 9950
    },
    {
      "epoch": 5.217505241090147,
      "grad_norm": 0.05979420989751816,
      "learning_rate": 0.0009232369084116736,
      "loss": 0.3803,
      "num_input_tokens_seen": 6511128,
      "step": 9955
    },
    {
      "epoch": 5.220125786163522,
      "grad_norm": 0.06625759601593018,
      "learning_rate": 0.0009231151049412234,
      "loss": 0.5838,
      "num_input_tokens_seen": 6514872,
      "step": 9960
    },
    {
      "epoch": 5.222746331236897,
      "grad_norm": 0.11155059933662415,
      "learning_rate": 0.0009229932129599205,
      "loss": 0.4317,
      "num_input_tokens_seen": 6517464,
      "step": 9965
    },
    {
      "epoch": 5.2253668763102725,
      "grad_norm": 0.07496461272239685,
      "learning_rate": 0.0009228712324932634,
      "loss": 0.4205,
      "num_input_tokens_seen": 6520056,
      "step": 9970
    },
    {
      "epoch": 5.227987421383648,
      "grad_norm": 0.06503002345561981,
      "learning_rate": 0.0009227491635667685,
      "loss": 0.4314,
      "num_input_tokens_seen": 6522840,
      "step": 9975
    },
    {
      "epoch": 5.230607966457023,
      "grad_norm": 0.05831121653318405,
      "learning_rate": 0.0009226270062059717,
      "loss": 0.4478,
      "num_input_tokens_seen": 6526424,
      "step": 9980
    },
    {
      "epoch": 5.233228511530398,
      "grad_norm": 0.04486505687236786,
      "learning_rate": 0.0009225047604364267,
      "loss": 0.4408,
      "num_input_tokens_seen": 6530008,
      "step": 9985
    },
    {
      "epoch": 5.235849056603773,
      "grad_norm": 0.09685422480106354,
      "learning_rate": 0.0009223824262837062,
      "loss": 0.4041,
      "num_input_tokens_seen": 6532760,
      "step": 9990
    },
    {
      "epoch": 5.238469601677149,
      "grad_norm": 0.06844256073236465,
      "learning_rate": 0.0009222600037734008,
      "loss": 0.4965,
      "num_input_tokens_seen": 6536984,
      "step": 9995
    },
    {
      "epoch": 5.241090146750524,
      "grad_norm": 0.06752730906009674,
      "learning_rate": 0.00092213749293112,
      "loss": 0.4815,
      "num_input_tokens_seen": 6540696,
      "step": 10000
    },
    {
      "epoch": 5.2437106918239,
      "grad_norm": 0.05508476868271828,
      "learning_rate": 0.0009220148937824917,
      "loss": 0.3956,
      "num_input_tokens_seen": 6543960,
      "step": 10005
    },
    {
      "epoch": 5.246331236897275,
      "grad_norm": 0.164432093501091,
      "learning_rate": 0.0009218922063531623,
      "loss": 0.4508,
      "num_input_tokens_seen": 6546712,
      "step": 10010
    },
    {
      "epoch": 5.24895178197065,
      "grad_norm": 0.07883734256029129,
      "learning_rate": 0.0009217694306687963,
      "loss": 0.428,
      "num_input_tokens_seen": 6549944,
      "step": 10015
    },
    {
      "epoch": 5.251572327044025,
      "grad_norm": 0.06452914327383041,
      "learning_rate": 0.0009216465667550774,
      "loss": 0.5264,
      "num_input_tokens_seen": 6552792,
      "step": 10020
    },
    {
      "epoch": 5.2541928721174,
      "grad_norm": 0.10683900862932205,
      "learning_rate": 0.0009215236146377071,
      "loss": 0.4396,
      "num_input_tokens_seen": 6555288,
      "step": 10025
    },
    {
      "epoch": 5.256813417190775,
      "grad_norm": 0.0716148242354393,
      "learning_rate": 0.0009214005743424056,
      "loss": 0.3539,
      "num_input_tokens_seen": 6558232,
      "step": 10030
    },
    {
      "epoch": 5.259433962264151,
      "grad_norm": 0.052674829959869385,
      "learning_rate": 0.0009212774458949116,
      "loss": 0.5476,
      "num_input_tokens_seen": 6562040,
      "step": 10035
    },
    {
      "epoch": 5.262054507337526,
      "grad_norm": 0.1621483564376831,
      "learning_rate": 0.000921154229320982,
      "loss": 0.5925,
      "num_input_tokens_seen": 6564664,
      "step": 10040
    },
    {
      "epoch": 5.264675052410902,
      "grad_norm": 0.05697504058480263,
      "learning_rate": 0.0009210309246463924,
      "loss": 0.5228,
      "num_input_tokens_seen": 6567608,
      "step": 10045
    },
    {
      "epoch": 5.267295597484277,
      "grad_norm": 0.07865414023399353,
      "learning_rate": 0.0009209075318969369,
      "loss": 0.5386,
      "num_input_tokens_seen": 6570424,
      "step": 10050
    },
    {
      "epoch": 5.269916142557652,
      "grad_norm": 0.151724174618721,
      "learning_rate": 0.0009207840510984276,
      "loss": 0.5819,
      "num_input_tokens_seen": 6573624,
      "step": 10055
    },
    {
      "epoch": 5.272536687631027,
      "grad_norm": 0.08090768754482269,
      "learning_rate": 0.0009206604822766953,
      "loss": 0.453,
      "num_input_tokens_seen": 6576920,
      "step": 10060
    },
    {
      "epoch": 5.2751572327044025,
      "grad_norm": 0.07357992231845856,
      "learning_rate": 0.0009205368254575892,
      "loss": 0.4131,
      "num_input_tokens_seen": 6580440,
      "step": 10065
    },
    {
      "epoch": 5.277777777777778,
      "grad_norm": 0.07199573516845703,
      "learning_rate": 0.000920413080666977,
      "loss": 0.3997,
      "num_input_tokens_seen": 6583064,
      "step": 10070
    },
    {
      "epoch": 5.280398322851153,
      "grad_norm": 0.07385601103305817,
      "learning_rate": 0.0009202892479307448,
      "loss": 0.4602,
      "num_input_tokens_seen": 6586840,
      "step": 10075
    },
    {
      "epoch": 5.283018867924528,
      "grad_norm": 0.08609893918037415,
      "learning_rate": 0.0009201653272747967,
      "loss": 0.5642,
      "num_input_tokens_seen": 6590296,
      "step": 10080
    },
    {
      "epoch": 5.285639412997903,
      "grad_norm": 0.07596340775489807,
      "learning_rate": 0.0009200413187250558,
      "loss": 0.5052,
      "num_input_tokens_seen": 6593368,
      "step": 10085
    },
    {
      "epoch": 5.288259958071279,
      "grad_norm": 0.049010682851076126,
      "learning_rate": 0.000919917222307463,
      "loss": 0.4863,
      "num_input_tokens_seen": 6596856,
      "step": 10090
    },
    {
      "epoch": 5.290880503144654,
      "grad_norm": 0.08974730968475342,
      "learning_rate": 0.000919793038047978,
      "loss": 0.4369,
      "num_input_tokens_seen": 6600184,
      "step": 10095
    },
    {
      "epoch": 5.29350104821803,
      "grad_norm": 0.08712629228830338,
      "learning_rate": 0.0009196687659725787,
      "loss": 0.5048,
      "num_input_tokens_seen": 6603608,
      "step": 10100
    },
    {
      "epoch": 5.296121593291405,
      "grad_norm": 0.08266730606555939,
      "learning_rate": 0.0009195444061072612,
      "loss": 0.4506,
      "num_input_tokens_seen": 6606712,
      "step": 10105
    },
    {
      "epoch": 5.29874213836478,
      "grad_norm": 0.05356293171644211,
      "learning_rate": 0.0009194199584780405,
      "loss": 0.3925,
      "num_input_tokens_seen": 6609624,
      "step": 10110
    },
    {
      "epoch": 5.301362683438155,
      "grad_norm": 0.039757803082466125,
      "learning_rate": 0.0009192954231109496,
      "loss": 0.4146,
      "num_input_tokens_seen": 6613336,
      "step": 10115
    },
    {
      "epoch": 5.30398322851153,
      "grad_norm": 0.11076222360134125,
      "learning_rate": 0.0009191708000320396,
      "loss": 0.5284,
      "num_input_tokens_seen": 6617560,
      "step": 10120
    },
    {
      "epoch": 5.306603773584905,
      "grad_norm": 0.04514497146010399,
      "learning_rate": 0.0009190460892673805,
      "loss": 0.4872,
      "num_input_tokens_seen": 6621496,
      "step": 10125
    },
    {
      "epoch": 5.309224318658281,
      "grad_norm": 0.12739796936511993,
      "learning_rate": 0.0009189212908430601,
      "loss": 0.3982,
      "num_input_tokens_seen": 6625656,
      "step": 10130
    },
    {
      "epoch": 5.311844863731656,
      "grad_norm": 0.05654570087790489,
      "learning_rate": 0.0009187964047851851,
      "loss": 0.3206,
      "num_input_tokens_seen": 6629240,
      "step": 10135
    },
    {
      "epoch": 5.314465408805032,
      "grad_norm": 0.05435868725180626,
      "learning_rate": 0.0009186714311198801,
      "loss": 0.5551,
      "num_input_tokens_seen": 6633784,
      "step": 10140
    },
    {
      "epoch": 5.317085953878407,
      "grad_norm": 0.054124653339385986,
      "learning_rate": 0.000918546369873288,
      "loss": 0.5226,
      "num_input_tokens_seen": 6636600,
      "step": 10145
    },
    {
      "epoch": 5.319706498951782,
      "grad_norm": 0.10443267226219177,
      "learning_rate": 0.0009184212210715704,
      "loss": 0.4246,
      "num_input_tokens_seen": 6640088,
      "step": 10150
    },
    {
      "epoch": 5.322327044025157,
      "grad_norm": 0.09126131236553192,
      "learning_rate": 0.0009182959847409072,
      "loss": 0.4739,
      "num_input_tokens_seen": 6642840,
      "step": 10155
    },
    {
      "epoch": 5.3249475890985325,
      "grad_norm": 0.061111368238925934,
      "learning_rate": 0.0009181706609074959,
      "loss": 0.4028,
      "num_input_tokens_seen": 6646136,
      "step": 10160
    },
    {
      "epoch": 5.327568134171908,
      "grad_norm": 0.15977048873901367,
      "learning_rate": 0.0009180452495975531,
      "loss": 0.3978,
      "num_input_tokens_seen": 6649560,
      "step": 10165
    },
    {
      "epoch": 5.330188679245283,
      "grad_norm": 0.07576937228441238,
      "learning_rate": 0.0009179197508373134,
      "loss": 0.3844,
      "num_input_tokens_seen": 6652888,
      "step": 10170
    },
    {
      "epoch": 5.332809224318658,
      "grad_norm": 0.12113912403583527,
      "learning_rate": 0.0009177941646530299,
      "loss": 0.3925,
      "num_input_tokens_seen": 6655576,
      "step": 10175
    },
    {
      "epoch": 5.335429769392033,
      "grad_norm": 0.13471612334251404,
      "learning_rate": 0.0009176684910709733,
      "loss": 0.4585,
      "num_input_tokens_seen": 6659288,
      "step": 10180
    },
    {
      "epoch": 5.338050314465409,
      "grad_norm": 0.06753929704427719,
      "learning_rate": 0.0009175427301174338,
      "loss": 0.3963,
      "num_input_tokens_seen": 6662360,
      "step": 10185
    },
    {
      "epoch": 5.340670859538784,
      "grad_norm": 0.05493753030896187,
      "learning_rate": 0.0009174168818187183,
      "loss": 0.4711,
      "num_input_tokens_seen": 6666584,
      "step": 10190
    },
    {
      "epoch": 5.34329140461216,
      "grad_norm": 0.18867632746696472,
      "learning_rate": 0.0009172909462011536,
      "loss": 0.6521,
      "num_input_tokens_seen": 6669176,
      "step": 10195
    },
    {
      "epoch": 5.345911949685535,
      "grad_norm": 0.062397561967372894,
      "learning_rate": 0.0009171649232910835,
      "loss": 0.5867,
      "num_input_tokens_seen": 6672728,
      "step": 10200
    },
    {
      "epoch": 5.34853249475891,
      "grad_norm": 0.06972499191761017,
      "learning_rate": 0.0009170388131148707,
      "loss": 0.3517,
      "num_input_tokens_seen": 6676024,
      "step": 10205
    },
    {
      "epoch": 5.351153039832285,
      "grad_norm": 0.07488889992237091,
      "learning_rate": 0.000916912615698896,
      "loss": 0.5563,
      "num_input_tokens_seen": 6679224,
      "step": 10210
    },
    {
      "epoch": 5.35377358490566,
      "grad_norm": 0.149007186293602,
      "learning_rate": 0.0009167863310695585,
      "loss": 0.474,
      "num_input_tokens_seen": 6681528,
      "step": 10215
    },
    {
      "epoch": 5.356394129979035,
      "grad_norm": 0.07374667376279831,
      "learning_rate": 0.0009166599592532756,
      "loss": 0.3996,
      "num_input_tokens_seen": 6683992,
      "step": 10220
    },
    {
      "epoch": 5.359014675052411,
      "grad_norm": 0.08595488965511322,
      "learning_rate": 0.0009165335002764828,
      "loss": 0.385,
      "num_input_tokens_seen": 6687576,
      "step": 10225
    },
    {
      "epoch": 5.361635220125786,
      "grad_norm": 0.08117972314357758,
      "learning_rate": 0.0009164069541656337,
      "loss": 0.5418,
      "num_input_tokens_seen": 6690264,
      "step": 10230
    },
    {
      "epoch": 5.364255765199162,
      "grad_norm": 0.10968979448080063,
      "learning_rate": 0.0009162803209472004,
      "loss": 0.4071,
      "num_input_tokens_seen": 6693400,
      "step": 10235
    },
    {
      "epoch": 5.366876310272537,
      "grad_norm": 0.09480886906385422,
      "learning_rate": 0.000916153600647673,
      "loss": 0.525,
      "num_input_tokens_seen": 6695960,
      "step": 10240
    },
    {
      "epoch": 5.369496855345912,
      "grad_norm": 0.08914230763912201,
      "learning_rate": 0.0009160267932935602,
      "loss": 0.4422,
      "num_input_tokens_seen": 6699064,
      "step": 10245
    },
    {
      "epoch": 5.372117400419287,
      "grad_norm": 0.05499216914176941,
      "learning_rate": 0.0009158998989113885,
      "loss": 0.4213,
      "num_input_tokens_seen": 6702008,
      "step": 10250
    },
    {
      "epoch": 5.3747379454926625,
      "grad_norm": 0.11036019027233124,
      "learning_rate": 0.0009157729175277028,
      "loss": 0.6636,
      "num_input_tokens_seen": 6705560,
      "step": 10255
    },
    {
      "epoch": 5.377358490566038,
      "grad_norm": 0.10299745947122574,
      "learning_rate": 0.0009156458491690662,
      "loss": 0.5774,
      "num_input_tokens_seen": 6709016,
      "step": 10260
    },
    {
      "epoch": 5.379979035639413,
      "grad_norm": 0.07776510715484619,
      "learning_rate": 0.0009155186938620599,
      "loss": 0.4931,
      "num_input_tokens_seen": 6711736,
      "step": 10265
    },
    {
      "epoch": 5.382599580712788,
      "grad_norm": 0.07490012049674988,
      "learning_rate": 0.0009153914516332833,
      "loss": 0.46,
      "num_input_tokens_seen": 6714104,
      "step": 10270
    },
    {
      "epoch": 5.385220125786163,
      "grad_norm": 0.08904001116752625,
      "learning_rate": 0.000915264122509354,
      "loss": 0.481,
      "num_input_tokens_seen": 6717720,
      "step": 10275
    },
    {
      "epoch": 5.387840670859539,
      "grad_norm": 0.10460193455219269,
      "learning_rate": 0.0009151367065169078,
      "loss": 0.5419,
      "num_input_tokens_seen": 6720728,
      "step": 10280
    },
    {
      "epoch": 5.390461215932914,
      "grad_norm": 0.09324106574058533,
      "learning_rate": 0.0009150092036825989,
      "loss": 0.467,
      "num_input_tokens_seen": 6724344,
      "step": 10285
    },
    {
      "epoch": 5.3930817610062896,
      "grad_norm": 0.052058059722185135,
      "learning_rate": 0.0009148816140330991,
      "loss": 0.4799,
      "num_input_tokens_seen": 6728280,
      "step": 10290
    },
    {
      "epoch": 5.395702306079665,
      "grad_norm": 0.0735919401049614,
      "learning_rate": 0.000914753937595099,
      "loss": 0.4671,
      "num_input_tokens_seen": 6730936,
      "step": 10295
    },
    {
      "epoch": 5.39832285115304,
      "grad_norm": 0.0732758566737175,
      "learning_rate": 0.0009146261743953068,
      "loss": 0.4482,
      "num_input_tokens_seen": 6733624,
      "step": 10300
    },
    {
      "epoch": 5.400943396226415,
      "grad_norm": 0.0938192829489708,
      "learning_rate": 0.0009144983244604493,
      "loss": 0.4984,
      "num_input_tokens_seen": 6736184,
      "step": 10305
    },
    {
      "epoch": 5.40356394129979,
      "grad_norm": 0.05585736408829689,
      "learning_rate": 0.0009143703878172712,
      "loss": 0.4746,
      "num_input_tokens_seen": 6739192,
      "step": 10310
    },
    {
      "epoch": 5.406184486373165,
      "grad_norm": 0.08494396507740021,
      "learning_rate": 0.0009142423644925353,
      "loss": 0.3686,
      "num_input_tokens_seen": 6742360,
      "step": 10315
    },
    {
      "epoch": 5.408805031446541,
      "grad_norm": 0.0689764991402626,
      "learning_rate": 0.0009141142545130228,
      "loss": 0.4574,
      "num_input_tokens_seen": 6746200,
      "step": 10320
    },
    {
      "epoch": 5.411425576519916,
      "grad_norm": 0.052913960069417953,
      "learning_rate": 0.0009139860579055326,
      "loss": 0.5017,
      "num_input_tokens_seen": 6750616,
      "step": 10325
    },
    {
      "epoch": 5.414046121593292,
      "grad_norm": 0.08853192627429962,
      "learning_rate": 0.0009138577746968821,
      "loss": 0.4829,
      "num_input_tokens_seen": 6753688,
      "step": 10330
    },
    {
      "epoch": 5.416666666666667,
      "grad_norm": 0.04277927055954933,
      "learning_rate": 0.0009137294049139066,
      "loss": 0.3635,
      "num_input_tokens_seen": 6756920,
      "step": 10335
    },
    {
      "epoch": 5.419287211740042,
      "grad_norm": 0.08872098475694656,
      "learning_rate": 0.0009136009485834598,
      "loss": 0.4199,
      "num_input_tokens_seen": 6761048,
      "step": 10340
    },
    {
      "epoch": 5.421907756813417,
      "grad_norm": 0.06800948828458786,
      "learning_rate": 0.0009134724057324131,
      "loss": 0.3683,
      "num_input_tokens_seen": 6764280,
      "step": 10345
    },
    {
      "epoch": 5.4245283018867925,
      "grad_norm": 0.1784544140100479,
      "learning_rate": 0.0009133437763876562,
      "loss": 0.604,
      "num_input_tokens_seen": 6767704,
      "step": 10350
    },
    {
      "epoch": 5.427148846960168,
      "grad_norm": 0.042945485562086105,
      "learning_rate": 0.000913215060576097,
      "loss": 0.4361,
      "num_input_tokens_seen": 6772280,
      "step": 10355
    },
    {
      "epoch": 5.429769392033543,
      "grad_norm": 0.10444176197052002,
      "learning_rate": 0.0009130862583246613,
      "loss": 0.3739,
      "num_input_tokens_seen": 6775704,
      "step": 10360
    },
    {
      "epoch": 5.432389937106918,
      "grad_norm": 0.0564601868391037,
      "learning_rate": 0.0009129573696602932,
      "loss": 0.4597,
      "num_input_tokens_seen": 6779288,
      "step": 10365
    },
    {
      "epoch": 5.435010482180293,
      "grad_norm": 0.14546817541122437,
      "learning_rate": 0.0009128283946099546,
      "loss": 0.4756,
      "num_input_tokens_seen": 6781848,
      "step": 10370
    },
    {
      "epoch": 5.437631027253669,
      "grad_norm": 0.09073849022388458,
      "learning_rate": 0.0009126993332006256,
      "loss": 0.4506,
      "num_input_tokens_seen": 6784920,
      "step": 10375
    },
    {
      "epoch": 5.440251572327044,
      "grad_norm": 0.09417092055082321,
      "learning_rate": 0.0009125701854593045,
      "loss": 0.5669,
      "num_input_tokens_seen": 6788344,
      "step": 10380
    },
    {
      "epoch": 5.4428721174004195,
      "grad_norm": 0.10328056663274765,
      "learning_rate": 0.0009124409514130073,
      "loss": 0.6474,
      "num_input_tokens_seen": 6791000,
      "step": 10385
    },
    {
      "epoch": 5.445492662473795,
      "grad_norm": 0.08573540300130844,
      "learning_rate": 0.0009123116310887686,
      "loss": 0.4639,
      "num_input_tokens_seen": 6793560,
      "step": 10390
    },
    {
      "epoch": 5.44811320754717,
      "grad_norm": 0.07917951792478561,
      "learning_rate": 0.0009121822245136404,
      "loss": 0.3821,
      "num_input_tokens_seen": 6795896,
      "step": 10395
    },
    {
      "epoch": 5.450733752620545,
      "grad_norm": 0.1282723993062973,
      "learning_rate": 0.0009120527317146934,
      "loss": 0.2987,
      "num_input_tokens_seen": 6798584,
      "step": 10400
    },
    {
      "epoch": 5.45335429769392,
      "grad_norm": 0.11322718113660812,
      "learning_rate": 0.0009119231527190158,
      "loss": 0.3955,
      "num_input_tokens_seen": 6801816,
      "step": 10405
    },
    {
      "epoch": 5.455974842767295,
      "grad_norm": 0.09501785039901733,
      "learning_rate": 0.0009117934875537141,
      "loss": 0.446,
      "num_input_tokens_seen": 6805880,
      "step": 10410
    },
    {
      "epoch": 5.4585953878406706,
      "grad_norm": 0.08315391093492508,
      "learning_rate": 0.0009116637362459129,
      "loss": 0.7139,
      "num_input_tokens_seen": 6809240,
      "step": 10415
    },
    {
      "epoch": 5.461215932914046,
      "grad_norm": 0.04683350771665573,
      "learning_rate": 0.0009115338988227546,
      "loss": 0.3736,
      "num_input_tokens_seen": 6812344,
      "step": 10420
    },
    {
      "epoch": 5.463836477987422,
      "grad_norm": 0.05066369101405144,
      "learning_rate": 0.0009114039753113997,
      "loss": 0.5084,
      "num_input_tokens_seen": 6815800,
      "step": 10425
    },
    {
      "epoch": 5.466457023060797,
      "grad_norm": 0.03539926931262016,
      "learning_rate": 0.0009112739657390265,
      "loss": 0.4419,
      "num_input_tokens_seen": 6823736,
      "step": 10430
    },
    {
      "epoch": 5.469077568134172,
      "grad_norm": 0.112535759806633,
      "learning_rate": 0.0009111438701328319,
      "loss": 0.4262,
      "num_input_tokens_seen": 6826520,
      "step": 10435
    },
    {
      "epoch": 5.471698113207547,
      "grad_norm": 0.0785292387008667,
      "learning_rate": 0.0009110136885200302,
      "loss": 0.4421,
      "num_input_tokens_seen": 6829880,
      "step": 10440
    },
    {
      "epoch": 5.4743186582809225,
      "grad_norm": 0.08712124824523926,
      "learning_rate": 0.000910883420927854,
      "loss": 0.5265,
      "num_input_tokens_seen": 6833752,
      "step": 10445
    },
    {
      "epoch": 5.476939203354298,
      "grad_norm": 0.1164020299911499,
      "learning_rate": 0.0009107530673835536,
      "loss": 0.5939,
      "num_input_tokens_seen": 6837208,
      "step": 10450
    },
    {
      "epoch": 5.479559748427673,
      "grad_norm": 0.06950649619102478,
      "learning_rate": 0.0009106226279143979,
      "loss": 0.4866,
      "num_input_tokens_seen": 6843544,
      "step": 10455
    },
    {
      "epoch": 5.482180293501048,
      "grad_norm": 0.06826624274253845,
      "learning_rate": 0.0009104921025476728,
      "loss": 0.6424,
      "num_input_tokens_seen": 6846488,
      "step": 10460
    },
    {
      "epoch": 5.484800838574423,
      "grad_norm": 0.09687425196170807,
      "learning_rate": 0.0009103614913106832,
      "loss": 0.4274,
      "num_input_tokens_seen": 6850136,
      "step": 10465
    },
    {
      "epoch": 5.487421383647799,
      "grad_norm": 0.08359245955944061,
      "learning_rate": 0.0009102307942307511,
      "loss": 0.4908,
      "num_input_tokens_seen": 6853016,
      "step": 10470
    },
    {
      "epoch": 5.490041928721174,
      "grad_norm": 0.08039827644824982,
      "learning_rate": 0.000910100011335217,
      "loss": 0.4884,
      "num_input_tokens_seen": 6856088,
      "step": 10475
    },
    {
      "epoch": 5.4926624737945495,
      "grad_norm": 0.07279852032661438,
      "learning_rate": 0.0009099691426514392,
      "loss": 0.5593,
      "num_input_tokens_seen": 6859288,
      "step": 10480
    },
    {
      "epoch": 5.495283018867925,
      "grad_norm": 0.05915412679314613,
      "learning_rate": 0.0009098381882067941,
      "loss": 0.4178,
      "num_input_tokens_seen": 6863480,
      "step": 10485
    },
    {
      "epoch": 5.4979035639413,
      "grad_norm": 0.0778503343462944,
      "learning_rate": 0.0009097071480286756,
      "loss": 0.2476,
      "num_input_tokens_seen": 6869656,
      "step": 10490
    },
    {
      "epoch": 5.500524109014675,
      "grad_norm": 0.07730431854724884,
      "learning_rate": 0.0009095760221444959,
      "loss": 0.376,
      "num_input_tokens_seen": 6872344,
      "step": 10495
    },
    {
      "epoch": 5.50314465408805,
      "grad_norm": 0.07326698303222656,
      "learning_rate": 0.000909444810581685,
      "loss": 0.4196,
      "num_input_tokens_seen": 6876216,
      "step": 10500
    },
    {
      "epoch": 5.505765199161425,
      "grad_norm": 0.06581350415945053,
      "learning_rate": 0.000909313513367691,
      "loss": 0.361,
      "num_input_tokens_seen": 6879384,
      "step": 10505
    },
    {
      "epoch": 5.5083857442348005,
      "grad_norm": 0.3055133819580078,
      "learning_rate": 0.0009091821305299798,
      "loss": 0.5528,
      "num_input_tokens_seen": 6882232,
      "step": 10510
    },
    {
      "epoch": 5.511006289308176,
      "grad_norm": 0.10788438469171524,
      "learning_rate": 0.000909050662096035,
      "loss": 0.5207,
      "num_input_tokens_seen": 6886072,
      "step": 10515
    },
    {
      "epoch": 5.513626834381551,
      "grad_norm": 0.06317358464002609,
      "learning_rate": 0.0009089191080933583,
      "loss": 0.3894,
      "num_input_tokens_seen": 6889272,
      "step": 10520
    },
    {
      "epoch": 5.516247379454927,
      "grad_norm": 0.0689009502530098,
      "learning_rate": 0.0009087874685494695,
      "loss": 0.5599,
      "num_input_tokens_seen": 6892824,
      "step": 10525
    },
    {
      "epoch": 5.518867924528302,
      "grad_norm": 0.06918156892061234,
      "learning_rate": 0.0009086557434919059,
      "loss": 0.4905,
      "num_input_tokens_seen": 6896248,
      "step": 10530
    },
    {
      "epoch": 5.521488469601677,
      "grad_norm": 0.0638120025396347,
      "learning_rate": 0.0009085239329482231,
      "loss": 0.5086,
      "num_input_tokens_seen": 6899640,
      "step": 10535
    },
    {
      "epoch": 5.524109014675052,
      "grad_norm": 0.05740097537636757,
      "learning_rate": 0.0009083920369459941,
      "loss": 0.432,
      "num_input_tokens_seen": 6903896,
      "step": 10540
    },
    {
      "epoch": 5.526729559748428,
      "grad_norm": 0.07525386661291122,
      "learning_rate": 0.00090826005551281,
      "loss": 0.536,
      "num_input_tokens_seen": 6907448,
      "step": 10545
    },
    {
      "epoch": 5.529350104821803,
      "grad_norm": 0.05328369140625,
      "learning_rate": 0.0009081279886762802,
      "loss": 0.4764,
      "num_input_tokens_seen": 6910840,
      "step": 10550
    },
    {
      "epoch": 5.531970649895178,
      "grad_norm": 0.09315328299999237,
      "learning_rate": 0.0009079958364640313,
      "loss": 0.402,
      "num_input_tokens_seen": 6913528,
      "step": 10555
    },
    {
      "epoch": 5.534591194968553,
      "grad_norm": 0.08358429372310638,
      "learning_rate": 0.0009078635989037081,
      "loss": 0.5003,
      "num_input_tokens_seen": 6916312,
      "step": 10560
    },
    {
      "epoch": 5.537211740041929,
      "grad_norm": 0.06251250952482224,
      "learning_rate": 0.000907731276022973,
      "loss": 0.448,
      "num_input_tokens_seen": 6919384,
      "step": 10565
    },
    {
      "epoch": 5.539832285115304,
      "grad_norm": 0.10109743475914001,
      "learning_rate": 0.0009075988678495066,
      "loss": 0.5703,
      "num_input_tokens_seen": 6921816,
      "step": 10570
    },
    {
      "epoch": 5.5424528301886795,
      "grad_norm": 0.0730695128440857,
      "learning_rate": 0.0009074663744110073,
      "loss": 0.541,
      "num_input_tokens_seen": 6924760,
      "step": 10575
    },
    {
      "epoch": 5.545073375262055,
      "grad_norm": 0.06241916865110397,
      "learning_rate": 0.0009073337957351911,
      "loss": 0.4101,
      "num_input_tokens_seen": 6928600,
      "step": 10580
    },
    {
      "epoch": 5.54769392033543,
      "grad_norm": 0.09831155091524124,
      "learning_rate": 0.0009072011318497919,
      "loss": 0.3682,
      "num_input_tokens_seen": 6932120,
      "step": 10585
    },
    {
      "epoch": 5.550314465408805,
      "grad_norm": 0.11522515118122101,
      "learning_rate": 0.0009070683827825615,
      "loss": 0.4654,
      "num_input_tokens_seen": 6934968,
      "step": 10590
    },
    {
      "epoch": 5.55293501048218,
      "grad_norm": 0.07461921125650406,
      "learning_rate": 0.0009069355485612695,
      "loss": 0.5075,
      "num_input_tokens_seen": 6938776,
      "step": 10595
    },
    {
      "epoch": 5.555555555555555,
      "grad_norm": 0.11009763181209564,
      "learning_rate": 0.0009068026292137034,
      "loss": 0.4537,
      "num_input_tokens_seen": 6942200,
      "step": 10600
    },
    {
      "epoch": 5.5581761006289305,
      "grad_norm": 0.11944417655467987,
      "learning_rate": 0.0009066696247676682,
      "loss": 0.6945,
      "num_input_tokens_seen": 6944888,
      "step": 10605
    },
    {
      "epoch": 5.560796645702306,
      "grad_norm": 0.09706896543502808,
      "learning_rate": 0.0009065365352509871,
      "loss": 0.4446,
      "num_input_tokens_seen": 6947896,
      "step": 10610
    },
    {
      "epoch": 5.563417190775681,
      "grad_norm": 0.1108001172542572,
      "learning_rate": 0.0009064033606915008,
      "loss": 0.6198,
      "num_input_tokens_seen": 6950712,
      "step": 10615
    },
    {
      "epoch": 5.566037735849057,
      "grad_norm": 0.09112763404846191,
      "learning_rate": 0.000906270101117068,
      "loss": 0.6285,
      "num_input_tokens_seen": 6953496,
      "step": 10620
    },
    {
      "epoch": 5.568658280922432,
      "grad_norm": 0.05903269350528717,
      "learning_rate": 0.0009061367565555649,
      "loss": 0.4573,
      "num_input_tokens_seen": 6956152,
      "step": 10625
    },
    {
      "epoch": 5.571278825995807,
      "grad_norm": 0.09792608767747879,
      "learning_rate": 0.000906003327034886,
      "loss": 0.4427,
      "num_input_tokens_seen": 6959032,
      "step": 10630
    },
    {
      "epoch": 5.573899371069182,
      "grad_norm": 0.0657464861869812,
      "learning_rate": 0.0009058698125829428,
      "loss": 0.3872,
      "num_input_tokens_seen": 6962296,
      "step": 10635
    },
    {
      "epoch": 5.576519916142558,
      "grad_norm": 0.06391000002622604,
      "learning_rate": 0.0009057362132276653,
      "loss": 0.5084,
      "num_input_tokens_seen": 6965784,
      "step": 10640
    },
    {
      "epoch": 5.579140461215933,
      "grad_norm": 0.19102121889591217,
      "learning_rate": 0.0009056025289970009,
      "loss": 0.53,
      "num_input_tokens_seen": 6969112,
      "step": 10645
    },
    {
      "epoch": 5.581761006289308,
      "grad_norm": 0.08533748984336853,
      "learning_rate": 0.0009054687599189148,
      "loss": 0.4808,
      "num_input_tokens_seen": 6972216,
      "step": 10650
    },
    {
      "epoch": 5.584381551362683,
      "grad_norm": 0.06054501608014107,
      "learning_rate": 0.0009053349060213899,
      "loss": 0.5662,
      "num_input_tokens_seen": 6975064,
      "step": 10655
    },
    {
      "epoch": 5.587002096436059,
      "grad_norm": 0.09459670633077621,
      "learning_rate": 0.0009052009673324269,
      "loss": 0.5019,
      "num_input_tokens_seen": 6977688,
      "step": 10660
    },
    {
      "epoch": 5.589622641509434,
      "grad_norm": 0.0677466168999672,
      "learning_rate": 0.0009050669438800445,
      "loss": 0.4679,
      "num_input_tokens_seen": 6981208,
      "step": 10665
    },
    {
      "epoch": 5.5922431865828095,
      "grad_norm": 0.12955805659294128,
      "learning_rate": 0.0009049328356922786,
      "loss": 0.4773,
      "num_input_tokens_seen": 6983960,
      "step": 10670
    },
    {
      "epoch": 5.594863731656185,
      "grad_norm": 0.072207972407341,
      "learning_rate": 0.0009047986427971831,
      "loss": 0.5134,
      "num_input_tokens_seen": 6987320,
      "step": 10675
    },
    {
      "epoch": 5.59748427672956,
      "grad_norm": 0.059775881469249725,
      "learning_rate": 0.0009046643652228297,
      "loss": 0.4743,
      "num_input_tokens_seen": 6991064,
      "step": 10680
    },
    {
      "epoch": 5.600104821802935,
      "grad_norm": 0.09001126885414124,
      "learning_rate": 0.0009045300029973079,
      "loss": 0.518,
      "num_input_tokens_seen": 6993624,
      "step": 10685
    },
    {
      "epoch": 5.60272536687631,
      "grad_norm": 0.09009841084480286,
      "learning_rate": 0.0009043955561487245,
      "loss": 0.487,
      "num_input_tokens_seen": 6996344,
      "step": 10690
    },
    {
      "epoch": 5.605345911949685,
      "grad_norm": 0.06566634029150009,
      "learning_rate": 0.0009042610247052044,
      "loss": 0.4518,
      "num_input_tokens_seen": 6999576,
      "step": 10695
    },
    {
      "epoch": 5.6079664570230605,
      "grad_norm": 0.09099473059177399,
      "learning_rate": 0.0009041264086948899,
      "loss": 0.4821,
      "num_input_tokens_seen": 7003096,
      "step": 10700
    },
    {
      "epoch": 5.610587002096436,
      "grad_norm": 0.06952124089002609,
      "learning_rate": 0.0009039917081459414,
      "loss": 0.4179,
      "num_input_tokens_seen": 7006328,
      "step": 10705
    },
    {
      "epoch": 5.613207547169811,
      "grad_norm": 0.06974761188030243,
      "learning_rate": 0.0009038569230865363,
      "loss": 0.5337,
      "num_input_tokens_seen": 7009560,
      "step": 10710
    },
    {
      "epoch": 5.615828092243187,
      "grad_norm": 0.07304096966981888,
      "learning_rate": 0.0009037220535448705,
      "loss": 0.5397,
      "num_input_tokens_seen": 7012216,
      "step": 10715
    },
    {
      "epoch": 5.618448637316562,
      "grad_norm": 0.09068241715431213,
      "learning_rate": 0.0009035870995491571,
      "loss": 0.4831,
      "num_input_tokens_seen": 7015224,
      "step": 10720
    },
    {
      "epoch": 5.621069182389937,
      "grad_norm": 0.07639424502849579,
      "learning_rate": 0.0009034520611276265,
      "loss": 0.4811,
      "num_input_tokens_seen": 7018296,
      "step": 10725
    },
    {
      "epoch": 5.623689727463312,
      "grad_norm": 0.06210818141698837,
      "learning_rate": 0.0009033169383085278,
      "loss": 0.4333,
      "num_input_tokens_seen": 7022424,
      "step": 10730
    },
    {
      "epoch": 5.626310272536688,
      "grad_norm": 0.07253376394510269,
      "learning_rate": 0.0009031817311201268,
      "loss": 0.3733,
      "num_input_tokens_seen": 7026456,
      "step": 10735
    },
    {
      "epoch": 5.628930817610063,
      "grad_norm": 0.07957536727190018,
      "learning_rate": 0.0009030464395907074,
      "loss": 0.5884,
      "num_input_tokens_seen": 7029880,
      "step": 10740
    },
    {
      "epoch": 5.631551362683438,
      "grad_norm": 0.0763513594865799,
      "learning_rate": 0.0009029110637485711,
      "loss": 0.4265,
      "num_input_tokens_seen": 7033080,
      "step": 10745
    },
    {
      "epoch": 5.634171907756813,
      "grad_norm": 0.06845592707395554,
      "learning_rate": 0.0009027756036220368,
      "loss": 0.5096,
      "num_input_tokens_seen": 7036760,
      "step": 10750
    },
    {
      "epoch": 5.636792452830189,
      "grad_norm": 0.11282040923833847,
      "learning_rate": 0.0009026400592394415,
      "loss": 0.5024,
      "num_input_tokens_seen": 7040920,
      "step": 10755
    },
    {
      "epoch": 5.639412997903564,
      "grad_norm": 0.09158100187778473,
      "learning_rate": 0.0009025044306291393,
      "loss": 0.4402,
      "num_input_tokens_seen": 7043416,
      "step": 10760
    },
    {
      "epoch": 5.6420335429769395,
      "grad_norm": 0.11470372974872589,
      "learning_rate": 0.0009023687178195022,
      "loss": 0.5051,
      "num_input_tokens_seen": 7046296,
      "step": 10765
    },
    {
      "epoch": 5.644654088050315,
      "grad_norm": 0.08749489486217499,
      "learning_rate": 0.0009022329208389196,
      "loss": 0.3373,
      "num_input_tokens_seen": 7050008,
      "step": 10770
    },
    {
      "epoch": 5.64727463312369,
      "grad_norm": 0.060433968901634216,
      "learning_rate": 0.000902097039715799,
      "loss": 0.4528,
      "num_input_tokens_seen": 7053240,
      "step": 10775
    },
    {
      "epoch": 5.649895178197065,
      "grad_norm": 0.09997107088565826,
      "learning_rate": 0.0009019610744785651,
      "loss": 0.5254,
      "num_input_tokens_seen": 7056312,
      "step": 10780
    },
    {
      "epoch": 5.65251572327044,
      "grad_norm": 0.0667535811662674,
      "learning_rate": 0.0009018250251556603,
      "loss": 0.3492,
      "num_input_tokens_seen": 7059960,
      "step": 10785
    },
    {
      "epoch": 5.655136268343815,
      "grad_norm": 0.08650309592485428,
      "learning_rate": 0.0009016888917755445,
      "loss": 0.5092,
      "num_input_tokens_seen": 7062936,
      "step": 10790
    },
    {
      "epoch": 5.6577568134171905,
      "grad_norm": 0.11931503564119339,
      "learning_rate": 0.0009015526743666951,
      "loss": 0.5388,
      "num_input_tokens_seen": 7065368,
      "step": 10795
    },
    {
      "epoch": 5.660377358490566,
      "grad_norm": 0.08649672567844391,
      "learning_rate": 0.0009014163729576074,
      "loss": 0.5692,
      "num_input_tokens_seen": 7069464,
      "step": 10800
    },
    {
      "epoch": 5.662997903563941,
      "grad_norm": 0.09843382984399796,
      "learning_rate": 0.0009012799875767943,
      "loss": 0.3818,
      "num_input_tokens_seen": 7071768,
      "step": 10805
    },
    {
      "epoch": 5.665618448637317,
      "grad_norm": 0.07021782547235489,
      "learning_rate": 0.0009011435182527856,
      "loss": 0.3703,
      "num_input_tokens_seen": 7075704,
      "step": 10810
    },
    {
      "epoch": 5.668238993710692,
      "grad_norm": 0.07728917896747589,
      "learning_rate": 0.0009010069650141295,
      "loss": 0.4933,
      "num_input_tokens_seen": 7078264,
      "step": 10815
    },
    {
      "epoch": 5.670859538784067,
      "grad_norm": 0.16552232205867767,
      "learning_rate": 0.0009008703278893913,
      "loss": 0.497,
      "num_input_tokens_seen": 7082424,
      "step": 10820
    },
    {
      "epoch": 5.673480083857442,
      "grad_norm": 0.08144062012434006,
      "learning_rate": 0.0009007336069071537,
      "loss": 0.4445,
      "num_input_tokens_seen": 7085624,
      "step": 10825
    },
    {
      "epoch": 5.676100628930818,
      "grad_norm": 0.0497836098074913,
      "learning_rate": 0.0009005968020960175,
      "loss": 0.4289,
      "num_input_tokens_seen": 7089112,
      "step": 10830
    },
    {
      "epoch": 5.678721174004193,
      "grad_norm": 0.07679706066846848,
      "learning_rate": 0.0009004599134846004,
      "loss": 0.38,
      "num_input_tokens_seen": 7092728,
      "step": 10835
    },
    {
      "epoch": 5.681341719077568,
      "grad_norm": 0.058265745639801025,
      "learning_rate": 0.0009003229411015382,
      "loss": 0.5928,
      "num_input_tokens_seen": 7095544,
      "step": 10840
    },
    {
      "epoch": 5.683962264150943,
      "grad_norm": 0.10503020882606506,
      "learning_rate": 0.0009001858849754838,
      "loss": 0.4459,
      "num_input_tokens_seen": 7098264,
      "step": 10845
    },
    {
      "epoch": 5.686582809224319,
      "grad_norm": 0.07432614266872406,
      "learning_rate": 0.0009000487451351078,
      "loss": 0.4624,
      "num_input_tokens_seen": 7101464,
      "step": 10850
    },
    {
      "epoch": 5.689203354297694,
      "grad_norm": 0.12109459936618805,
      "learning_rate": 0.0008999115216090985,
      "loss": 0.5536,
      "num_input_tokens_seen": 7105080,
      "step": 10855
    },
    {
      "epoch": 5.6918238993710695,
      "grad_norm": 0.10074739158153534,
      "learning_rate": 0.0008997742144261612,
      "loss": 0.5303,
      "num_input_tokens_seen": 7107800,
      "step": 10860
    },
    {
      "epoch": 5.694444444444445,
      "grad_norm": 0.11505282670259476,
      "learning_rate": 0.000899636823615019,
      "loss": 0.4702,
      "num_input_tokens_seen": 7110712,
      "step": 10865
    },
    {
      "epoch": 5.69706498951782,
      "grad_norm": 0.07254140824079514,
      "learning_rate": 0.0008994993492044127,
      "loss": 0.6957,
      "num_input_tokens_seen": 7114520,
      "step": 10870
    },
    {
      "epoch": 5.699685534591195,
      "grad_norm": 0.11114281415939331,
      "learning_rate": 0.0008993617912231003,
      "loss": 0.3369,
      "num_input_tokens_seen": 7118232,
      "step": 10875
    },
    {
      "epoch": 5.70230607966457,
      "grad_norm": 0.06492023915052414,
      "learning_rate": 0.0008992241496998572,
      "loss": 0.5532,
      "num_input_tokens_seen": 7121080,
      "step": 10880
    },
    {
      "epoch": 5.704926624737945,
      "grad_norm": 0.18199282884597778,
      "learning_rate": 0.0008990864246634767,
      "loss": 0.4775,
      "num_input_tokens_seen": 7124792,
      "step": 10885
    },
    {
      "epoch": 5.7075471698113205,
      "grad_norm": 0.07148928195238113,
      "learning_rate": 0.0008989486161427691,
      "loss": 0.3765,
      "num_input_tokens_seen": 7127640,
      "step": 10890
    },
    {
      "epoch": 5.710167714884696,
      "grad_norm": 0.09147878736257553,
      "learning_rate": 0.0008988107241665624,
      "loss": 0.4329,
      "num_input_tokens_seen": 7130392,
      "step": 10895
    },
    {
      "epoch": 5.712788259958071,
      "grad_norm": 0.052520908415317535,
      "learning_rate": 0.0008986727487637022,
      "loss": 0.4439,
      "num_input_tokens_seen": 7133912,
      "step": 10900
    },
    {
      "epoch": 5.715408805031447,
      "grad_norm": 0.058108437806367874,
      "learning_rate": 0.0008985346899630513,
      "loss": 0.4215,
      "num_input_tokens_seen": 7137272,
      "step": 10905
    },
    {
      "epoch": 5.718029350104822,
      "grad_norm": 0.10103587806224823,
      "learning_rate": 0.0008983965477934899,
      "loss": 0.6072,
      "num_input_tokens_seen": 7140152,
      "step": 10910
    },
    {
      "epoch": 5.720649895178197,
      "grad_norm": 0.09621112048625946,
      "learning_rate": 0.0008982583222839158,
      "loss": 0.4462,
      "num_input_tokens_seen": 7143256,
      "step": 10915
    },
    {
      "epoch": 5.723270440251572,
      "grad_norm": 0.06046351417899132,
      "learning_rate": 0.0008981200134632444,
      "loss": 0.5127,
      "num_input_tokens_seen": 7146456,
      "step": 10920
    },
    {
      "epoch": 5.725890985324948,
      "grad_norm": 0.0682118684053421,
      "learning_rate": 0.000897981621360408,
      "loss": 0.4913,
      "num_input_tokens_seen": 7149432,
      "step": 10925
    },
    {
      "epoch": 5.728511530398323,
      "grad_norm": 0.09270486980676651,
      "learning_rate": 0.0008978431460043569,
      "loss": 0.4396,
      "num_input_tokens_seen": 7155640,
      "step": 10930
    },
    {
      "epoch": 5.731132075471698,
      "grad_norm": 0.07963987439870834,
      "learning_rate": 0.0008977045874240585,
      "loss": 0.4642,
      "num_input_tokens_seen": 7158136,
      "step": 10935
    },
    {
      "epoch": 5.733752620545073,
      "grad_norm": 0.11937524378299713,
      "learning_rate": 0.0008975659456484977,
      "loss": 0.5984,
      "num_input_tokens_seen": 7161208,
      "step": 10940
    },
    {
      "epoch": 5.736373165618449,
      "grad_norm": 0.028823330998420715,
      "learning_rate": 0.0008974272207066767,
      "loss": 0.3067,
      "num_input_tokens_seen": 7167160,
      "step": 10945
    },
    {
      "epoch": 5.738993710691824,
      "grad_norm": 0.09587325155735016,
      "learning_rate": 0.0008972884126276152,
      "loss": 0.4149,
      "num_input_tokens_seen": 7170072,
      "step": 10950
    },
    {
      "epoch": 5.7416142557651995,
      "grad_norm": 0.07346959412097931,
      "learning_rate": 0.0008971495214403502,
      "loss": 0.4465,
      "num_input_tokens_seen": 7173368,
      "step": 10955
    },
    {
      "epoch": 5.744234800838575,
      "grad_norm": 0.05817064270377159,
      "learning_rate": 0.0008970105471739364,
      "loss": 0.5485,
      "num_input_tokens_seen": 7176504,
      "step": 10960
    },
    {
      "epoch": 5.74685534591195,
      "grad_norm": 0.10721045732498169,
      "learning_rate": 0.0008968714898574454,
      "loss": 0.5981,
      "num_input_tokens_seen": 7179672,
      "step": 10965
    },
    {
      "epoch": 5.749475890985325,
      "grad_norm": 0.08163545280694962,
      "learning_rate": 0.0008967323495199665,
      "loss": 0.3428,
      "num_input_tokens_seen": 7182360,
      "step": 10970
    },
    {
      "epoch": 5.7520964360587,
      "grad_norm": 0.067377008497715,
      "learning_rate": 0.0008965931261906061,
      "loss": 0.4626,
      "num_input_tokens_seen": 7186040,
      "step": 10975
    },
    {
      "epoch": 5.754716981132075,
      "grad_norm": 0.0837993249297142,
      "learning_rate": 0.0008964538198984885,
      "loss": 0.4156,
      "num_input_tokens_seen": 7189368,
      "step": 10980
    },
    {
      "epoch": 5.7573375262054505,
      "grad_norm": 0.08980853855609894,
      "learning_rate": 0.0008963144306727547,
      "loss": 0.4471,
      "num_input_tokens_seen": 7192664,
      "step": 10985
    },
    {
      "epoch": 5.759958071278826,
      "grad_norm": 0.051435165107250214,
      "learning_rate": 0.0008961749585425634,
      "loss": 0.3956,
      "num_input_tokens_seen": 7196120,
      "step": 10990
    },
    {
      "epoch": 5.762578616352201,
      "grad_norm": 0.1346377730369568,
      "learning_rate": 0.0008960354035370905,
      "loss": 0.4884,
      "num_input_tokens_seen": 7199992,
      "step": 10995
    },
    {
      "epoch": 5.765199161425577,
      "grad_norm": 0.0868290439248085,
      "learning_rate": 0.0008958957656855294,
      "loss": 0.6228,
      "num_input_tokens_seen": 7203096,
      "step": 11000
    },
    {
      "epoch": 5.767819706498952,
      "grad_norm": 0.07184217870235443,
      "learning_rate": 0.0008957560450170907,
      "loss": 0.5397,
      "num_input_tokens_seen": 7206200,
      "step": 11005
    },
    {
      "epoch": 5.770440251572327,
      "grad_norm": 0.13017140328884125,
      "learning_rate": 0.0008956162415610025,
      "loss": 0.5489,
      "num_input_tokens_seen": 7209656,
      "step": 11010
    },
    {
      "epoch": 5.773060796645702,
      "grad_norm": 0.08301561325788498,
      "learning_rate": 0.00089547635534651,
      "loss": 0.6251,
      "num_input_tokens_seen": 7213272,
      "step": 11015
    },
    {
      "epoch": 5.7756813417190775,
      "grad_norm": 0.0752137079834938,
      "learning_rate": 0.0008953363864028758,
      "loss": 0.4586,
      "num_input_tokens_seen": 7216728,
      "step": 11020
    },
    {
      "epoch": 5.778301886792453,
      "grad_norm": 0.12625759840011597,
      "learning_rate": 0.0008951963347593796,
      "loss": 0.4604,
      "num_input_tokens_seen": 7219480,
      "step": 11025
    },
    {
      "epoch": 5.780922431865828,
      "grad_norm": 0.0493197999894619,
      "learning_rate": 0.0008950562004453191,
      "loss": 0.4643,
      "num_input_tokens_seen": 7224376,
      "step": 11030
    },
    {
      "epoch": 5.783542976939203,
      "grad_norm": 0.07271017879247665,
      "learning_rate": 0.0008949159834900082,
      "loss": 0.3605,
      "num_input_tokens_seen": 7227704,
      "step": 11035
    },
    {
      "epoch": 5.786163522012579,
      "grad_norm": 0.059277892112731934,
      "learning_rate": 0.0008947756839227792,
      "loss": 0.4172,
      "num_input_tokens_seen": 7231928,
      "step": 11040
    },
    {
      "epoch": 5.788784067085954,
      "grad_norm": 0.07388124614953995,
      "learning_rate": 0.0008946353017729809,
      "loss": 0.4165,
      "num_input_tokens_seen": 7236984,
      "step": 11045
    },
    {
      "epoch": 5.7914046121593294,
      "grad_norm": 0.0945754200220108,
      "learning_rate": 0.0008944948370699798,
      "loss": 0.473,
      "num_input_tokens_seen": 7239704,
      "step": 11050
    },
    {
      "epoch": 5.794025157232705,
      "grad_norm": 0.12266936153173447,
      "learning_rate": 0.0008943542898431593,
      "loss": 0.4731,
      "num_input_tokens_seen": 7242936,
      "step": 11055
    },
    {
      "epoch": 5.79664570230608,
      "grad_norm": 0.06826531887054443,
      "learning_rate": 0.0008942136601219205,
      "loss": 0.5287,
      "num_input_tokens_seen": 7245976,
      "step": 11060
    },
    {
      "epoch": 5.799266247379455,
      "grad_norm": 0.15902279317378998,
      "learning_rate": 0.0008940729479356813,
      "loss": 0.5425,
      "num_input_tokens_seen": 7249304,
      "step": 11065
    },
    {
      "epoch": 5.80188679245283,
      "grad_norm": 0.08811921626329422,
      "learning_rate": 0.0008939321533138774,
      "loss": 0.5568,
      "num_input_tokens_seen": 7252344,
      "step": 11070
    },
    {
      "epoch": 5.804507337526205,
      "grad_norm": 0.052167344838380814,
      "learning_rate": 0.0008937912762859611,
      "loss": 0.5119,
      "num_input_tokens_seen": 7257144,
      "step": 11075
    },
    {
      "epoch": 5.8071278825995805,
      "grad_norm": 0.06748074293136597,
      "learning_rate": 0.0008936503168814024,
      "loss": 0.6678,
      "num_input_tokens_seen": 7260376,
      "step": 11080
    },
    {
      "epoch": 5.809748427672956,
      "grad_norm": 0.08359258621931076,
      "learning_rate": 0.0008935092751296885,
      "loss": 0.4606,
      "num_input_tokens_seen": 7263256,
      "step": 11085
    },
    {
      "epoch": 5.812368972746331,
      "grad_norm": 0.08437351137399673,
      "learning_rate": 0.0008933681510603235,
      "loss": 0.5026,
      "num_input_tokens_seen": 7265688,
      "step": 11090
    },
    {
      "epoch": 5.814989517819707,
      "grad_norm": 0.05593700334429741,
      "learning_rate": 0.0008932269447028292,
      "loss": 0.5005,
      "num_input_tokens_seen": 7268280,
      "step": 11095
    },
    {
      "epoch": 5.817610062893082,
      "grad_norm": 0.09275667369365692,
      "learning_rate": 0.0008930856560867442,
      "loss": 0.409,
      "num_input_tokens_seen": 7271640,
      "step": 11100
    },
    {
      "epoch": 5.820230607966457,
      "grad_norm": 0.09282666444778442,
      "learning_rate": 0.0008929442852416245,
      "loss": 0.2905,
      "num_input_tokens_seen": 7274040,
      "step": 11105
    },
    {
      "epoch": 5.822851153039832,
      "grad_norm": 0.06665586680173874,
      "learning_rate": 0.0008928028321970433,
      "loss": 0.5548,
      "num_input_tokens_seen": 7276888,
      "step": 11110
    },
    {
      "epoch": 5.8254716981132075,
      "grad_norm": 0.12471950054168701,
      "learning_rate": 0.0008926612969825909,
      "loss": 0.5762,
      "num_input_tokens_seen": 7280280,
      "step": 11115
    },
    {
      "epoch": 5.828092243186583,
      "grad_norm": 0.06843665987253189,
      "learning_rate": 0.000892519679627875,
      "loss": 0.6243,
      "num_input_tokens_seen": 7283448,
      "step": 11120
    },
    {
      "epoch": 5.830712788259958,
      "grad_norm": 0.07598213106393814,
      "learning_rate": 0.00089237798016252,
      "loss": 0.7509,
      "num_input_tokens_seen": 7286168,
      "step": 11125
    },
    {
      "epoch": 5.833333333333333,
      "grad_norm": 0.11457212269306183,
      "learning_rate": 0.0008922361986161682,
      "loss": 0.5168,
      "num_input_tokens_seen": 7289688,
      "step": 11130
    },
    {
      "epoch": 5.835953878406709,
      "grad_norm": 0.07182274758815765,
      "learning_rate": 0.0008920943350184785,
      "loss": 0.5461,
      "num_input_tokens_seen": 7292664,
      "step": 11135
    },
    {
      "epoch": 5.838574423480084,
      "grad_norm": 0.09207620471715927,
      "learning_rate": 0.0008919523893991271,
      "loss": 0.4517,
      "num_input_tokens_seen": 7295928,
      "step": 11140
    },
    {
      "epoch": 5.841194968553459,
      "grad_norm": 0.0866759642958641,
      "learning_rate": 0.0008918103617878075,
      "loss": 0.4985,
      "num_input_tokens_seen": 7298424,
      "step": 11145
    },
    {
      "epoch": 5.843815513626835,
      "grad_norm": 0.11927430331707001,
      "learning_rate": 0.0008916682522142302,
      "loss": 0.4405,
      "num_input_tokens_seen": 7301624,
      "step": 11150
    },
    {
      "epoch": 5.84643605870021,
      "grad_norm": 0.09451065957546234,
      "learning_rate": 0.000891526060708123,
      "loss": 0.6956,
      "num_input_tokens_seen": 7304536,
      "step": 11155
    },
    {
      "epoch": 5.849056603773585,
      "grad_norm": 0.09547685831785202,
      "learning_rate": 0.0008913837872992306,
      "loss": 0.5101,
      "num_input_tokens_seen": 7306904,
      "step": 11160
    },
    {
      "epoch": 5.85167714884696,
      "grad_norm": 0.10846378654241562,
      "learning_rate": 0.000891241432017315,
      "loss": 0.4718,
      "num_input_tokens_seen": 7308952,
      "step": 11165
    },
    {
      "epoch": 5.854297693920335,
      "grad_norm": 0.061924830079078674,
      "learning_rate": 0.0008910989948921555,
      "loss": 0.6393,
      "num_input_tokens_seen": 7312600,
      "step": 11170
    },
    {
      "epoch": 5.8569182389937104,
      "grad_norm": 0.08719319105148315,
      "learning_rate": 0.000890956475953548,
      "loss": 0.5366,
      "num_input_tokens_seen": 7315416,
      "step": 11175
    },
    {
      "epoch": 5.859538784067086,
      "grad_norm": 0.08308697491884232,
      "learning_rate": 0.0008908138752313061,
      "loss": 0.5297,
      "num_input_tokens_seen": 7318296,
      "step": 11180
    },
    {
      "epoch": 5.862159329140461,
      "grad_norm": 0.11355169117450714,
      "learning_rate": 0.0008906711927552601,
      "loss": 0.4103,
      "num_input_tokens_seen": 7320728,
      "step": 11185
    },
    {
      "epoch": 5.864779874213837,
      "grad_norm": 0.06337440013885498,
      "learning_rate": 0.0008905284285552575,
      "loss": 0.4537,
      "num_input_tokens_seen": 7323928,
      "step": 11190
    },
    {
      "epoch": 5.867400419287212,
      "grad_norm": 0.0909598171710968,
      "learning_rate": 0.0008903855826611631,
      "loss": 0.5029,
      "num_input_tokens_seen": 7327064,
      "step": 11195
    },
    {
      "epoch": 5.870020964360587,
      "grad_norm": 0.10182275623083115,
      "learning_rate": 0.0008902426551028586,
      "loss": 0.4651,
      "num_input_tokens_seen": 7329656,
      "step": 11200
    },
    {
      "epoch": 5.872641509433962,
      "grad_norm": 0.0775672197341919,
      "learning_rate": 0.0008900996459102428,
      "loss": 0.4408,
      "num_input_tokens_seen": 7332760,
      "step": 11205
    },
    {
      "epoch": 5.8752620545073375,
      "grad_norm": 0.09527618438005447,
      "learning_rate": 0.0008899565551132315,
      "loss": 0.5753,
      "num_input_tokens_seen": 7336344,
      "step": 11210
    },
    {
      "epoch": 5.877882599580713,
      "grad_norm": 0.09617340564727783,
      "learning_rate": 0.0008898133827417578,
      "loss": 0.5385,
      "num_input_tokens_seen": 7339064,
      "step": 11215
    },
    {
      "epoch": 5.880503144654088,
      "grad_norm": 0.1298174113035202,
      "learning_rate": 0.0008896701288257716,
      "loss": 0.6443,
      "num_input_tokens_seen": 7341848,
      "step": 11220
    },
    {
      "epoch": 5.883123689727463,
      "grad_norm": 0.0781039297580719,
      "learning_rate": 0.00088952679339524,
      "loss": 0.5793,
      "num_input_tokens_seen": 7344632,
      "step": 11225
    },
    {
      "epoch": 5.885744234800838,
      "grad_norm": 0.0752502977848053,
      "learning_rate": 0.0008893833764801473,
      "loss": 0.3912,
      "num_input_tokens_seen": 7347512,
      "step": 11230
    },
    {
      "epoch": 5.888364779874214,
      "grad_norm": 0.1596783697605133,
      "learning_rate": 0.0008892398781104945,
      "loss": 0.5469,
      "num_input_tokens_seen": 7350424,
      "step": 11235
    },
    {
      "epoch": 5.890985324947589,
      "grad_norm": 0.09503016620874405,
      "learning_rate": 0.0008890962983162997,
      "loss": 0.5144,
      "num_input_tokens_seen": 7354232,
      "step": 11240
    },
    {
      "epoch": 5.893605870020965,
      "grad_norm": 0.1561301201581955,
      "learning_rate": 0.0008889526371275987,
      "loss": 0.4494,
      "num_input_tokens_seen": 7356632,
      "step": 11245
    },
    {
      "epoch": 5.89622641509434,
      "grad_norm": 0.10912923514842987,
      "learning_rate": 0.0008888088945744432,
      "loss": 0.4177,
      "num_input_tokens_seen": 7359256,
      "step": 11250
    },
    {
      "epoch": 5.898846960167715,
      "grad_norm": 0.10307780653238297,
      "learning_rate": 0.0008886650706869027,
      "loss": 0.3716,
      "num_input_tokens_seen": 7362200,
      "step": 11255
    },
    {
      "epoch": 5.90146750524109,
      "grad_norm": 0.0646156296133995,
      "learning_rate": 0.0008885211654950636,
      "loss": 0.3404,
      "num_input_tokens_seen": 7364664,
      "step": 11260
    },
    {
      "epoch": 5.904088050314465,
      "grad_norm": 0.0935281291604042,
      "learning_rate": 0.0008883771790290291,
      "loss": 0.475,
      "num_input_tokens_seen": 7368248,
      "step": 11265
    },
    {
      "epoch": 5.90670859538784,
      "grad_norm": 0.08880794048309326,
      "learning_rate": 0.0008882331113189197,
      "loss": 0.4504,
      "num_input_tokens_seen": 7371064,
      "step": 11270
    },
    {
      "epoch": 5.909329140461216,
      "grad_norm": 0.07444718480110168,
      "learning_rate": 0.0008880889623948724,
      "loss": 0.4686,
      "num_input_tokens_seen": 7374168,
      "step": 11275
    },
    {
      "epoch": 5.911949685534591,
      "grad_norm": 0.06726952642202377,
      "learning_rate": 0.000887944732287042,
      "loss": 0.4869,
      "num_input_tokens_seen": 7377336,
      "step": 11280
    },
    {
      "epoch": 5.914570230607967,
      "grad_norm": 0.2230033576488495,
      "learning_rate": 0.0008878004210255995,
      "loss": 0.5069,
      "num_input_tokens_seen": 7380280,
      "step": 11285
    },
    {
      "epoch": 5.917190775681342,
      "grad_norm": 0.06712189316749573,
      "learning_rate": 0.0008876560286407329,
      "loss": 0.4548,
      "num_input_tokens_seen": 7383864,
      "step": 11290
    },
    {
      "epoch": 5.919811320754717,
      "grad_norm": 0.07492253184318542,
      "learning_rate": 0.000887511555162648,
      "loss": 0.3282,
      "num_input_tokens_seen": 7387256,
      "step": 11295
    },
    {
      "epoch": 5.922431865828092,
      "grad_norm": 0.060949645936489105,
      "learning_rate": 0.0008873670006215666,
      "loss": 0.3285,
      "num_input_tokens_seen": 7391032,
      "step": 11300
    },
    {
      "epoch": 5.9250524109014675,
      "grad_norm": 0.07577868551015854,
      "learning_rate": 0.0008872223650477281,
      "loss": 0.422,
      "num_input_tokens_seen": 7393848,
      "step": 11305
    },
    {
      "epoch": 5.927672955974843,
      "grad_norm": 0.07954230159521103,
      "learning_rate": 0.0008870776484713882,
      "loss": 0.4983,
      "num_input_tokens_seen": 7397688,
      "step": 11310
    },
    {
      "epoch": 5.930293501048218,
      "grad_norm": 0.08004233241081238,
      "learning_rate": 0.0008869328509228205,
      "loss": 0.4618,
      "num_input_tokens_seen": 7400664,
      "step": 11315
    },
    {
      "epoch": 5.932914046121593,
      "grad_norm": 0.06550098210573196,
      "learning_rate": 0.0008867879724323147,
      "loss": 0.5209,
      "num_input_tokens_seen": 7403832,
      "step": 11320
    },
    {
      "epoch": 5.935534591194968,
      "grad_norm": 0.09325412660837173,
      "learning_rate": 0.0008866430130301777,
      "loss": 0.4463,
      "num_input_tokens_seen": 7406744,
      "step": 11325
    },
    {
      "epoch": 5.938155136268344,
      "grad_norm": 0.11273570358753204,
      "learning_rate": 0.0008864979727467335,
      "loss": 0.5816,
      "num_input_tokens_seen": 7410232,
      "step": 11330
    },
    {
      "epoch": 5.940775681341719,
      "grad_norm": 0.08789125829935074,
      "learning_rate": 0.000886352851612323,
      "loss": 0.5014,
      "num_input_tokens_seen": 7413688,
      "step": 11335
    },
    {
      "epoch": 5.943396226415095,
      "grad_norm": 0.07150199264287949,
      "learning_rate": 0.0008862076496573034,
      "loss": 0.4619,
      "num_input_tokens_seen": 7417112,
      "step": 11340
    },
    {
      "epoch": 5.94601677148847,
      "grad_norm": 0.06959791481494904,
      "learning_rate": 0.0008860623669120496,
      "loss": 0.6042,
      "num_input_tokens_seen": 7419576,
      "step": 11345
    },
    {
      "epoch": 5.948637316561845,
      "grad_norm": 0.08666913211345673,
      "learning_rate": 0.0008859170034069533,
      "loss": 0.4356,
      "num_input_tokens_seen": 7423256,
      "step": 11350
    },
    {
      "epoch": 5.95125786163522,
      "grad_norm": 0.1329747438430786,
      "learning_rate": 0.0008857715591724225,
      "loss": 0.3627,
      "num_input_tokens_seen": 7428792,
      "step": 11355
    },
    {
      "epoch": 5.953878406708595,
      "grad_norm": 0.07225355505943298,
      "learning_rate": 0.0008856260342388827,
      "loss": 0.4235,
      "num_input_tokens_seen": 7432376,
      "step": 11360
    },
    {
      "epoch": 5.95649895178197,
      "grad_norm": 0.06230338662862778,
      "learning_rate": 0.0008854804286367758,
      "loss": 0.5689,
      "num_input_tokens_seen": 7435992,
      "step": 11365
    },
    {
      "epoch": 5.959119496855346,
      "grad_norm": 0.09624306112527847,
      "learning_rate": 0.0008853347423965612,
      "loss": 0.4393,
      "num_input_tokens_seen": 7438872,
      "step": 11370
    },
    {
      "epoch": 5.961740041928721,
      "grad_norm": 0.13893288373947144,
      "learning_rate": 0.0008851889755487146,
      "loss": 0.4735,
      "num_input_tokens_seen": 7442008,
      "step": 11375
    },
    {
      "epoch": 5.964360587002097,
      "grad_norm": 0.17861038446426392,
      "learning_rate": 0.0008850431281237288,
      "loss": 0.5283,
      "num_input_tokens_seen": 7444408,
      "step": 11380
    },
    {
      "epoch": 5.966981132075472,
      "grad_norm": 0.1153847873210907,
      "learning_rate": 0.0008848972001521134,
      "loss": 0.3839,
      "num_input_tokens_seen": 7448440,
      "step": 11385
    },
    {
      "epoch": 5.969601677148847,
      "grad_norm": 0.13059456646442413,
      "learning_rate": 0.0008847511916643948,
      "loss": 0.4315,
      "num_input_tokens_seen": 7451480,
      "step": 11390
    },
    {
      "epoch": 5.972222222222222,
      "grad_norm": 0.06496164202690125,
      "learning_rate": 0.0008846051026911164,
      "loss": 0.4542,
      "num_input_tokens_seen": 7454424,
      "step": 11395
    },
    {
      "epoch": 5.9748427672955975,
      "grad_norm": 0.09806869924068451,
      "learning_rate": 0.0008844589332628383,
      "loss": 0.5206,
      "num_input_tokens_seen": 7456824,
      "step": 11400
    },
    {
      "epoch": 5.977463312368973,
      "grad_norm": 0.06836910545825958,
      "learning_rate": 0.0008843126834101376,
      "loss": 0.4127,
      "num_input_tokens_seen": 7459608,
      "step": 11405
    },
    {
      "epoch": 5.980083857442348,
      "grad_norm": 0.10506003350019455,
      "learning_rate": 0.000884166353163608,
      "loss": 0.5358,
      "num_input_tokens_seen": 7462840,
      "step": 11410
    },
    {
      "epoch": 5.982704402515723,
      "grad_norm": 0.04821181297302246,
      "learning_rate": 0.0008840199425538599,
      "loss": 0.4579,
      "num_input_tokens_seen": 7466456,
      "step": 11415
    },
    {
      "epoch": 5.985324947589098,
      "grad_norm": 0.059875428676605225,
      "learning_rate": 0.0008838734516115213,
      "loss": 0.3276,
      "num_input_tokens_seen": 7469304,
      "step": 11420
    },
    {
      "epoch": 5.987945492662474,
      "grad_norm": 0.12018444389104843,
      "learning_rate": 0.0008837268803672359,
      "loss": 0.5288,
      "num_input_tokens_seen": 7472248,
      "step": 11425
    },
    {
      "epoch": 5.990566037735849,
      "grad_norm": 0.11478451639413834,
      "learning_rate": 0.0008835802288516647,
      "loss": 0.5413,
      "num_input_tokens_seen": 7475032,
      "step": 11430
    },
    {
      "epoch": 5.993186582809225,
      "grad_norm": 0.059864118695259094,
      "learning_rate": 0.0008834334970954861,
      "loss": 0.4421,
      "num_input_tokens_seen": 7478008,
      "step": 11435
    },
    {
      "epoch": 5.9958071278826,
      "grad_norm": 0.08172187209129333,
      "learning_rate": 0.0008832866851293941,
      "loss": 0.4254,
      "num_input_tokens_seen": 7481112,
      "step": 11440
    },
    {
      "epoch": 5.998427672955975,
      "grad_norm": 0.059274982661008835,
      "learning_rate": 0.0008831397929841005,
      "loss": 0.4209,
      "num_input_tokens_seen": 7484024,
      "step": 11445
    },
    {
      "epoch": 6.0,
      "eval_loss": 0.4514550268650055,
      "eval_runtime": 13.3094,
      "eval_samples_per_second": 63.714,
      "eval_steps_per_second": 15.929,
      "num_input_tokens_seen": 7485248,
      "step": 11448
    },
    {
      "epoch": 6.00104821802935,
      "grad_norm": 0.08141534775495529,
      "learning_rate": 0.0008829928206903333,
      "loss": 0.3858,
      "num_input_tokens_seen": 7486304,
      "step": 11450
    },
    {
      "epoch": 6.003668763102725,
      "grad_norm": 0.05805165693163872,
      "learning_rate": 0.0008828457682788373,
      "loss": 0.521,
      "num_input_tokens_seen": 7489504,
      "step": 11455
    },
    {
      "epoch": 6.0062893081761,
      "grad_norm": 0.14231230318546295,
      "learning_rate": 0.0008826986357803743,
      "loss": 0.38,
      "num_input_tokens_seen": 7492896,
      "step": 11460
    },
    {
      "epoch": 6.008909853249476,
      "grad_norm": 0.0613170862197876,
      "learning_rate": 0.0008825514232257228,
      "loss": 0.4552,
      "num_input_tokens_seen": 7495584,
      "step": 11465
    },
    {
      "epoch": 6.011530398322851,
      "grad_norm": 0.07431747764348984,
      "learning_rate": 0.000882404130645678,
      "loss": 0.5328,
      "num_input_tokens_seen": 7498208,
      "step": 11470
    },
    {
      "epoch": 6.014150943396227,
      "grad_norm": 0.03187737613916397,
      "learning_rate": 0.0008822567580710518,
      "loss": 0.4047,
      "num_input_tokens_seen": 7501664,
      "step": 11475
    },
    {
      "epoch": 6.016771488469602,
      "grad_norm": 0.06890708953142166,
      "learning_rate": 0.0008821093055326728,
      "loss": 0.4097,
      "num_input_tokens_seen": 7504416,
      "step": 11480
    },
    {
      "epoch": 6.019392033542977,
      "grad_norm": 0.10855995118618011,
      "learning_rate": 0.0008819617730613863,
      "loss": 0.4659,
      "num_input_tokens_seen": 7507264,
      "step": 11485
    },
    {
      "epoch": 6.022012578616352,
      "grad_norm": 0.11854161322116852,
      "learning_rate": 0.0008818141606880545,
      "loss": 0.5741,
      "num_input_tokens_seen": 7510432,
      "step": 11490
    },
    {
      "epoch": 6.0246331236897275,
      "grad_norm": 0.07410350441932678,
      "learning_rate": 0.0008816664684435564,
      "loss": 0.5456,
      "num_input_tokens_seen": 7513856,
      "step": 11495
    },
    {
      "epoch": 6.027253668763103,
      "grad_norm": 0.11371883749961853,
      "learning_rate": 0.0008815186963587873,
      "loss": 0.603,
      "num_input_tokens_seen": 7516736,
      "step": 11500
    },
    {
      "epoch": 6.029874213836478,
      "grad_norm": 0.10722661018371582,
      "learning_rate": 0.0008813708444646596,
      "loss": 0.4523,
      "num_input_tokens_seen": 7519968,
      "step": 11505
    },
    {
      "epoch": 6.032494758909853,
      "grad_norm": 0.04066290333867073,
      "learning_rate": 0.0008812229127921021,
      "loss": 0.4762,
      "num_input_tokens_seen": 7523040,
      "step": 11510
    },
    {
      "epoch": 6.035115303983228,
      "grad_norm": 0.07716965675354004,
      "learning_rate": 0.0008810749013720605,
      "loss": 0.4744,
      "num_input_tokens_seen": 7526464,
      "step": 11515
    },
    {
      "epoch": 6.037735849056604,
      "grad_norm": 0.0803762823343277,
      "learning_rate": 0.0008809268102354969,
      "loss": 0.3333,
      "num_input_tokens_seen": 7529376,
      "step": 11520
    },
    {
      "epoch": 6.040356394129979,
      "grad_norm": 0.05453716963529587,
      "learning_rate": 0.0008807786394133905,
      "loss": 0.3991,
      "num_input_tokens_seen": 7535904,
      "step": 11525
    },
    {
      "epoch": 6.0429769392033545,
      "grad_norm": 0.07067537307739258,
      "learning_rate": 0.0008806303889367371,
      "loss": 0.3321,
      "num_input_tokens_seen": 7538784,
      "step": 11530
    },
    {
      "epoch": 6.04559748427673,
      "grad_norm": 0.11675035208463669,
      "learning_rate": 0.0008804820588365485,
      "loss": 0.5111,
      "num_input_tokens_seen": 7542368,
      "step": 11535
    },
    {
      "epoch": 6.048218029350105,
      "grad_norm": 0.07350809127092361,
      "learning_rate": 0.0008803336491438543,
      "loss": 0.3489,
      "num_input_tokens_seen": 7545248,
      "step": 11540
    },
    {
      "epoch": 6.05083857442348,
      "grad_norm": 0.08373324573040009,
      "learning_rate": 0.0008801851598896995,
      "loss": 0.4156,
      "num_input_tokens_seen": 7548160,
      "step": 11545
    },
    {
      "epoch": 6.053459119496855,
      "grad_norm": 0.06102953478693962,
      "learning_rate": 0.0008800365911051467,
      "loss": 0.4039,
      "num_input_tokens_seen": 7551008,
      "step": 11550
    },
    {
      "epoch": 6.05607966457023,
      "grad_norm": 0.08853879570960999,
      "learning_rate": 0.0008798879428212747,
      "loss": 0.5391,
      "num_input_tokens_seen": 7554016,
      "step": 11555
    },
    {
      "epoch": 6.058700209643606,
      "grad_norm": 0.047719523310661316,
      "learning_rate": 0.0008797392150691792,
      "loss": 0.466,
      "num_input_tokens_seen": 7557376,
      "step": 11560
    },
    {
      "epoch": 6.061320754716981,
      "grad_norm": 0.08792398869991302,
      "learning_rate": 0.000879590407879972,
      "loss": 0.4515,
      "num_input_tokens_seen": 7561184,
      "step": 11565
    },
    {
      "epoch": 6.063941299790357,
      "grad_norm": 0.07630392163991928,
      "learning_rate": 0.0008794415212847822,
      "loss": 0.4042,
      "num_input_tokens_seen": 7564832,
      "step": 11570
    },
    {
      "epoch": 6.066561844863732,
      "grad_norm": 0.056468747556209564,
      "learning_rate": 0.000879292555314755,
      "loss": 0.431,
      "num_input_tokens_seen": 7569152,
      "step": 11575
    },
    {
      "epoch": 6.069182389937107,
      "grad_norm": 0.09893056750297546,
      "learning_rate": 0.0008791435100010524,
      "loss": 0.3447,
      "num_input_tokens_seen": 7572352,
      "step": 11580
    },
    {
      "epoch": 6.071802935010482,
      "grad_norm": 0.12119083106517792,
      "learning_rate": 0.000878994385374853,
      "loss": 0.4071,
      "num_input_tokens_seen": 7574944,
      "step": 11585
    },
    {
      "epoch": 6.0744234800838575,
      "grad_norm": 0.08120684325695038,
      "learning_rate": 0.0008788451814673521,
      "loss": 0.4203,
      "num_input_tokens_seen": 7577632,
      "step": 11590
    },
    {
      "epoch": 6.077044025157233,
      "grad_norm": 0.08608388900756836,
      "learning_rate": 0.0008786958983097613,
      "loss": 0.421,
      "num_input_tokens_seen": 7580512,
      "step": 11595
    },
    {
      "epoch": 6.079664570230608,
      "grad_norm": 0.06430777907371521,
      "learning_rate": 0.0008785465359333088,
      "loss": 0.4614,
      "num_input_tokens_seen": 7583584,
      "step": 11600
    },
    {
      "epoch": 6.082285115303983,
      "grad_norm": 0.07791855931282043,
      "learning_rate": 0.0008783970943692398,
      "loss": 0.5261,
      "num_input_tokens_seen": 7586688,
      "step": 11605
    },
    {
      "epoch": 6.084905660377358,
      "grad_norm": 0.1340007334947586,
      "learning_rate": 0.0008782475736488156,
      "loss": 0.44,
      "num_input_tokens_seen": 7589792,
      "step": 11610
    },
    {
      "epoch": 6.087526205450734,
      "grad_norm": 0.06698503345251083,
      "learning_rate": 0.0008780979738033142,
      "loss": 0.4532,
      "num_input_tokens_seen": 7593440,
      "step": 11615
    },
    {
      "epoch": 6.090146750524109,
      "grad_norm": 0.07494332641363144,
      "learning_rate": 0.0008779482948640305,
      "loss": 0.5837,
      "num_input_tokens_seen": 7596544,
      "step": 11620
    },
    {
      "epoch": 6.0927672955974845,
      "grad_norm": 0.10985103249549866,
      "learning_rate": 0.0008777985368622752,
      "loss": 0.412,
      "num_input_tokens_seen": 7602816,
      "step": 11625
    },
    {
      "epoch": 6.09538784067086,
      "grad_norm": 0.14730606973171234,
      "learning_rate": 0.0008776486998293762,
      "loss": 0.5277,
      "num_input_tokens_seen": 7605248,
      "step": 11630
    },
    {
      "epoch": 6.098008385744235,
      "grad_norm": 0.062023937702178955,
      "learning_rate": 0.0008774987837966775,
      "loss": 0.5457,
      "num_input_tokens_seen": 7608640,
      "step": 11635
    },
    {
      "epoch": 6.10062893081761,
      "grad_norm": 0.06696459650993347,
      "learning_rate": 0.0008773487887955401,
      "loss": 0.447,
      "num_input_tokens_seen": 7612224,
      "step": 11640
    },
    {
      "epoch": 6.103249475890985,
      "grad_norm": 0.11630158871412277,
      "learning_rate": 0.000877198714857341,
      "loss": 0.5061,
      "num_input_tokens_seen": 7614688,
      "step": 11645
    },
    {
      "epoch": 6.10587002096436,
      "grad_norm": 0.0874059870839119,
      "learning_rate": 0.000877048562013474,
      "loss": 0.3634,
      "num_input_tokens_seen": 7618624,
      "step": 11650
    },
    {
      "epoch": 6.1084905660377355,
      "grad_norm": 0.08906348794698715,
      "learning_rate": 0.0008768983302953498,
      "loss": 0.4395,
      "num_input_tokens_seen": 7621568,
      "step": 11655
    },
    {
      "epoch": 6.111111111111111,
      "grad_norm": 0.22193096578121185,
      "learning_rate": 0.0008767480197343945,
      "loss": 0.5943,
      "num_input_tokens_seen": 7623712,
      "step": 11660
    },
    {
      "epoch": 6.113731656184487,
      "grad_norm": 0.07956987619400024,
      "learning_rate": 0.0008765976303620515,
      "loss": 0.5157,
      "num_input_tokens_seen": 7626944,
      "step": 11665
    },
    {
      "epoch": 6.116352201257862,
      "grad_norm": 0.08185601979494095,
      "learning_rate": 0.0008764471622097809,
      "loss": 0.5174,
      "num_input_tokens_seen": 7629504,
      "step": 11670
    },
    {
      "epoch": 6.118972746331237,
      "grad_norm": 0.09858980029821396,
      "learning_rate": 0.0008762966153090588,
      "loss": 0.3448,
      "num_input_tokens_seen": 7632320,
      "step": 11675
    },
    {
      "epoch": 6.121593291404612,
      "grad_norm": 0.0885305181145668,
      "learning_rate": 0.0008761459896913776,
      "loss": 0.3793,
      "num_input_tokens_seen": 7634944,
      "step": 11680
    },
    {
      "epoch": 6.1242138364779874,
      "grad_norm": 0.07427138835191727,
      "learning_rate": 0.0008759952853882466,
      "loss": 0.3869,
      "num_input_tokens_seen": 7638752,
      "step": 11685
    },
    {
      "epoch": 6.126834381551363,
      "grad_norm": 0.10771161317825317,
      "learning_rate": 0.0008758445024311917,
      "loss": 0.4833,
      "num_input_tokens_seen": 7641920,
      "step": 11690
    },
    {
      "epoch": 6.129454926624738,
      "grad_norm": 0.08956564217805862,
      "learning_rate": 0.0008756936408517547,
      "loss": 0.5406,
      "num_input_tokens_seen": 7645248,
      "step": 11695
    },
    {
      "epoch": 6.132075471698113,
      "grad_norm": 0.09551610052585602,
      "learning_rate": 0.000875542700681494,
      "loss": 0.5876,
      "num_input_tokens_seen": 7652256,
      "step": 11700
    },
    {
      "epoch": 6.134696016771488,
      "grad_norm": 0.07739952951669693,
      "learning_rate": 0.0008753916819519849,
      "loss": 0.3728,
      "num_input_tokens_seen": 7654976,
      "step": 11705
    },
    {
      "epoch": 6.137316561844864,
      "grad_norm": 0.04789778217673302,
      "learning_rate": 0.0008752405846948186,
      "loss": 0.4759,
      "num_input_tokens_seen": 7658944,
      "step": 11710
    },
    {
      "epoch": 6.139937106918239,
      "grad_norm": 0.09457900375127792,
      "learning_rate": 0.0008750894089416029,
      "loss": 0.4874,
      "num_input_tokens_seen": 7662112,
      "step": 11715
    },
    {
      "epoch": 6.1425576519916145,
      "grad_norm": 0.0886123925447464,
      "learning_rate": 0.0008749381547239621,
      "loss": 0.5192,
      "num_input_tokens_seen": 7664480,
      "step": 11720
    },
    {
      "epoch": 6.14517819706499,
      "grad_norm": 0.05292842164635658,
      "learning_rate": 0.000874786822073537,
      "loss": 0.4328,
      "num_input_tokens_seen": 7667520,
      "step": 11725
    },
    {
      "epoch": 6.147798742138365,
      "grad_norm": 0.05767625570297241,
      "learning_rate": 0.0008746354110219843,
      "loss": 0.4598,
      "num_input_tokens_seen": 7670880,
      "step": 11730
    },
    {
      "epoch": 6.15041928721174,
      "grad_norm": 0.09952408075332642,
      "learning_rate": 0.0008744839216009779,
      "loss": 0.4467,
      "num_input_tokens_seen": 7673856,
      "step": 11735
    },
    {
      "epoch": 6.153039832285115,
      "grad_norm": 0.10109790414571762,
      "learning_rate": 0.0008743323538422072,
      "loss": 0.5314,
      "num_input_tokens_seen": 7676864,
      "step": 11740
    },
    {
      "epoch": 6.15566037735849,
      "grad_norm": 0.08447231352329254,
      "learning_rate": 0.0008741807077773789,
      "loss": 0.4798,
      "num_input_tokens_seen": 7679296,
      "step": 11745
    },
    {
      "epoch": 6.1582809224318655,
      "grad_norm": 0.13555404543876648,
      "learning_rate": 0.0008740289834382153,
      "loss": 0.492,
      "num_input_tokens_seen": 7682912,
      "step": 11750
    },
    {
      "epoch": 6.160901467505241,
      "grad_norm": 0.060960493981838226,
      "learning_rate": 0.0008738771808564555,
      "loss": 0.406,
      "num_input_tokens_seen": 7686592,
      "step": 11755
    },
    {
      "epoch": 6.163522012578617,
      "grad_norm": 0.09454325586557388,
      "learning_rate": 0.000873725300063855,
      "loss": 0.4479,
      "num_input_tokens_seen": 7689440,
      "step": 11760
    },
    {
      "epoch": 6.166142557651992,
      "grad_norm": 0.055737633258104324,
      "learning_rate": 0.0008735733410921853,
      "loss": 0.5535,
      "num_input_tokens_seen": 7693184,
      "step": 11765
    },
    {
      "epoch": 6.168763102725367,
      "grad_norm": 0.09124936163425446,
      "learning_rate": 0.0008734213039732346,
      "loss": 0.4602,
      "num_input_tokens_seen": 7696672,
      "step": 11770
    },
    {
      "epoch": 6.171383647798742,
      "grad_norm": 0.07951845228672028,
      "learning_rate": 0.0008732691887388073,
      "loss": 0.4368,
      "num_input_tokens_seen": 7700352,
      "step": 11775
    },
    {
      "epoch": 6.174004192872117,
      "grad_norm": 0.10805131494998932,
      "learning_rate": 0.0008731169954207243,
      "loss": 0.5606,
      "num_input_tokens_seen": 7703008,
      "step": 11780
    },
    {
      "epoch": 6.176624737945493,
      "grad_norm": 0.07440879940986633,
      "learning_rate": 0.0008729647240508225,
      "loss": 0.4678,
      "num_input_tokens_seen": 7705824,
      "step": 11785
    },
    {
      "epoch": 6.179245283018868,
      "grad_norm": 0.06850258260965347,
      "learning_rate": 0.0008728123746609555,
      "loss": 0.3807,
      "num_input_tokens_seen": 7708672,
      "step": 11790
    },
    {
      "epoch": 6.181865828092243,
      "grad_norm": 0.07441215962171555,
      "learning_rate": 0.000872659947282993,
      "loss": 0.391,
      "num_input_tokens_seen": 7712480,
      "step": 11795
    },
    {
      "epoch": 6.184486373165618,
      "grad_norm": 0.1034790426492691,
      "learning_rate": 0.000872507441948821,
      "loss": 0.3232,
      "num_input_tokens_seen": 7715296,
      "step": 11800
    },
    {
      "epoch": 6.187106918238993,
      "grad_norm": 0.13275302946567535,
      "learning_rate": 0.0008723548586903418,
      "loss": 0.4666,
      "num_input_tokens_seen": 7719808,
      "step": 11805
    },
    {
      "epoch": 6.189727463312369,
      "grad_norm": 0.06893376260995865,
      "learning_rate": 0.0008722021975394745,
      "loss": 0.4864,
      "num_input_tokens_seen": 7722208,
      "step": 11810
    },
    {
      "epoch": 6.1923480083857445,
      "grad_norm": 0.22296005487442017,
      "learning_rate": 0.0008720494585281536,
      "loss": 0.2878,
      "num_input_tokens_seen": 7726816,
      "step": 11815
    },
    {
      "epoch": 6.19496855345912,
      "grad_norm": 0.1292516589164734,
      "learning_rate": 0.0008718966416883306,
      "loss": 0.5017,
      "num_input_tokens_seen": 7729504,
      "step": 11820
    },
    {
      "epoch": 6.197589098532495,
      "grad_norm": 0.11292298138141632,
      "learning_rate": 0.0008717437470519729,
      "loss": 0.4744,
      "num_input_tokens_seen": 7732096,
      "step": 11825
    },
    {
      "epoch": 6.20020964360587,
      "grad_norm": 0.09542044997215271,
      "learning_rate": 0.0008715907746510645,
      "loss": 0.3867,
      "num_input_tokens_seen": 7735008,
      "step": 11830
    },
    {
      "epoch": 6.202830188679245,
      "grad_norm": 0.09013061225414276,
      "learning_rate": 0.0008714377245176054,
      "loss": 0.4424,
      "num_input_tokens_seen": 7738432,
      "step": 11835
    },
    {
      "epoch": 6.20545073375262,
      "grad_norm": 0.09953708946704865,
      "learning_rate": 0.0008712845966836119,
      "loss": 0.4742,
      "num_input_tokens_seen": 7741280,
      "step": 11840
    },
    {
      "epoch": 6.2080712788259955,
      "grad_norm": 0.08643881976604462,
      "learning_rate": 0.0008711313911811165,
      "loss": 0.5035,
      "num_input_tokens_seen": 7744512,
      "step": 11845
    },
    {
      "epoch": 6.210691823899371,
      "grad_norm": 0.08304747939109802,
      "learning_rate": 0.0008709781080421681,
      "loss": 0.5009,
      "num_input_tokens_seen": 7747904,
      "step": 11850
    },
    {
      "epoch": 6.213312368972747,
      "grad_norm": 0.09201113134622574,
      "learning_rate": 0.0008708247472988319,
      "loss": 0.4681,
      "num_input_tokens_seen": 7751168,
      "step": 11855
    },
    {
      "epoch": 6.215932914046122,
      "grad_norm": 0.13037343323230743,
      "learning_rate": 0.0008706713089831893,
      "loss": 0.4229,
      "num_input_tokens_seen": 7754368,
      "step": 11860
    },
    {
      "epoch": 6.218553459119497,
      "grad_norm": 0.1327509582042694,
      "learning_rate": 0.0008705177931273377,
      "loss": 0.5347,
      "num_input_tokens_seen": 7757056,
      "step": 11865
    },
    {
      "epoch": 6.221174004192872,
      "grad_norm": 0.03808769956231117,
      "learning_rate": 0.0008703641997633907,
      "loss": 0.3202,
      "num_input_tokens_seen": 7759904,
      "step": 11870
    },
    {
      "epoch": 6.223794549266247,
      "grad_norm": 0.074091337621212,
      "learning_rate": 0.0008702105289234786,
      "loss": 0.5808,
      "num_input_tokens_seen": 7764768,
      "step": 11875
    },
    {
      "epoch": 6.226415094339623,
      "grad_norm": 0.0635087639093399,
      "learning_rate": 0.0008700567806397473,
      "loss": 0.5133,
      "num_input_tokens_seen": 7768416,
      "step": 11880
    },
    {
      "epoch": 6.229035639412998,
      "grad_norm": 0.08157744258642197,
      "learning_rate": 0.0008699029549443595,
      "loss": 0.3915,
      "num_input_tokens_seen": 7770912,
      "step": 11885
    },
    {
      "epoch": 6.231656184486373,
      "grad_norm": 0.05250650271773338,
      "learning_rate": 0.0008697490518694935,
      "loss": 0.4128,
      "num_input_tokens_seen": 7774240,
      "step": 11890
    },
    {
      "epoch": 6.234276729559748,
      "grad_norm": 0.0574541874229908,
      "learning_rate": 0.0008695950714473442,
      "loss": 0.5887,
      "num_input_tokens_seen": 7777728,
      "step": 11895
    },
    {
      "epoch": 6.236897274633123,
      "grad_norm": 0.10830618441104889,
      "learning_rate": 0.0008694410137101224,
      "loss": 0.3948,
      "num_input_tokens_seen": 7780512,
      "step": 11900
    },
    {
      "epoch": 6.239517819706499,
      "grad_norm": 0.11683832108974457,
      "learning_rate": 0.0008692868786900554,
      "loss": 0.7447,
      "num_input_tokens_seen": 7783104,
      "step": 11905
    },
    {
      "epoch": 6.2421383647798745,
      "grad_norm": 0.06718018651008606,
      "learning_rate": 0.0008691326664193865,
      "loss": 0.4195,
      "num_input_tokens_seen": 7785920,
      "step": 11910
    },
    {
      "epoch": 6.24475890985325,
      "grad_norm": 0.1154608353972435,
      "learning_rate": 0.000868978376930375,
      "loss": 0.5225,
      "num_input_tokens_seen": 7789024,
      "step": 11915
    },
    {
      "epoch": 6.247379454926625,
      "grad_norm": 0.08493871986865997,
      "learning_rate": 0.0008688240102552965,
      "loss": 0.4763,
      "num_input_tokens_seen": 7792640,
      "step": 11920
    },
    {
      "epoch": 6.25,
      "grad_norm": 0.06000702083110809,
      "learning_rate": 0.000868669566426443,
      "loss": 0.4513,
      "num_input_tokens_seen": 7796576,
      "step": 11925
    },
    {
      "epoch": 6.252620545073375,
      "grad_norm": 0.06806257367134094,
      "learning_rate": 0.0008685150454761222,
      "loss": 0.4527,
      "num_input_tokens_seen": 7799264,
      "step": 11930
    },
    {
      "epoch": 6.25524109014675,
      "grad_norm": 0.08520971238613129,
      "learning_rate": 0.000868360447436658,
      "loss": 0.413,
      "num_input_tokens_seen": 7802016,
      "step": 11935
    },
    {
      "epoch": 6.2578616352201255,
      "grad_norm": 0.12371533364057541,
      "learning_rate": 0.0008682057723403907,
      "loss": 0.5625,
      "num_input_tokens_seen": 7804320,
      "step": 11940
    },
    {
      "epoch": 6.260482180293501,
      "grad_norm": 0.06115273758769035,
      "learning_rate": 0.0008680510202196765,
      "loss": 0.5391,
      "num_input_tokens_seen": 7807648,
      "step": 11945
    },
    {
      "epoch": 6.263102725366876,
      "grad_norm": 0.11842237412929535,
      "learning_rate": 0.0008678961911068879,
      "loss": 0.351,
      "num_input_tokens_seen": 7815680,
      "step": 11950
    },
    {
      "epoch": 6.265723270440252,
      "grad_norm": 0.08735969662666321,
      "learning_rate": 0.0008677412850344133,
      "loss": 0.4235,
      "num_input_tokens_seen": 7818528,
      "step": 11955
    },
    {
      "epoch": 6.268343815513627,
      "grad_norm": 0.076931431889534,
      "learning_rate": 0.0008675863020346573,
      "loss": 0.3366,
      "num_input_tokens_seen": 7821728,
      "step": 11960
    },
    {
      "epoch": 6.270964360587002,
      "grad_norm": 0.13257859647274017,
      "learning_rate": 0.0008674312421400405,
      "loss": 0.4865,
      "num_input_tokens_seen": 7825440,
      "step": 11965
    },
    {
      "epoch": 6.273584905660377,
      "grad_norm": 0.06189372017979622,
      "learning_rate": 0.0008672761053829997,
      "loss": 0.3996,
      "num_input_tokens_seen": 7828192,
      "step": 11970
    },
    {
      "epoch": 6.276205450733753,
      "grad_norm": 0.20132894814014435,
      "learning_rate": 0.0008671208917959878,
      "loss": 0.4039,
      "num_input_tokens_seen": 7831040,
      "step": 11975
    },
    {
      "epoch": 6.278825995807128,
      "grad_norm": 0.09567829966545105,
      "learning_rate": 0.0008669656014114737,
      "loss": 0.5724,
      "num_input_tokens_seen": 7833888,
      "step": 11980
    },
    {
      "epoch": 6.281446540880503,
      "grad_norm": 0.13107635080814362,
      "learning_rate": 0.0008668102342619424,
      "loss": 0.3962,
      "num_input_tokens_seen": 7836928,
      "step": 11985
    },
    {
      "epoch": 6.284067085953878,
      "grad_norm": 0.07929641753435135,
      "learning_rate": 0.0008666547903798947,
      "loss": 0.445,
      "num_input_tokens_seen": 7839808,
      "step": 11990
    },
    {
      "epoch": 6.286687631027253,
      "grad_norm": 0.16457125544548035,
      "learning_rate": 0.000866499269797848,
      "loss": 0.5718,
      "num_input_tokens_seen": 7842656,
      "step": 11995
    },
    {
      "epoch": 6.289308176100629,
      "grad_norm": 0.12659718096256256,
      "learning_rate": 0.0008663436725483354,
      "loss": 0.4777,
      "num_input_tokens_seen": 7845536,
      "step": 12000
    },
    {
      "epoch": 6.2919287211740045,
      "grad_norm": 0.06753842532634735,
      "learning_rate": 0.0008661879986639058,
      "loss": 0.509,
      "num_input_tokens_seen": 7849632,
      "step": 12005
    },
    {
      "epoch": 6.29454926624738,
      "grad_norm": 0.04838590323925018,
      "learning_rate": 0.0008660322481771246,
      "loss": 0.3799,
      "num_input_tokens_seen": 7852480,
      "step": 12010
    },
    {
      "epoch": 6.297169811320755,
      "grad_norm": 0.1151212528347969,
      "learning_rate": 0.0008658764211205731,
      "loss": 0.421,
      "num_input_tokens_seen": 7856192,
      "step": 12015
    },
    {
      "epoch": 6.29979035639413,
      "grad_norm": 0.06737591326236725,
      "learning_rate": 0.0008657205175268484,
      "loss": 0.4571,
      "num_input_tokens_seen": 7859744,
      "step": 12020
    },
    {
      "epoch": 6.302410901467505,
      "grad_norm": 0.08525823801755905,
      "learning_rate": 0.0008655645374285637,
      "loss": 0.5338,
      "num_input_tokens_seen": 7862848,
      "step": 12025
    },
    {
      "epoch": 6.30503144654088,
      "grad_norm": 0.12082714587450027,
      "learning_rate": 0.0008654084808583485,
      "loss": 0.5471,
      "num_input_tokens_seen": 7865408,
      "step": 12030
    },
    {
      "epoch": 6.3076519916142555,
      "grad_norm": 0.05179554596543312,
      "learning_rate": 0.0008652523478488478,
      "loss": 0.3499,
      "num_input_tokens_seen": 7868064,
      "step": 12035
    },
    {
      "epoch": 6.310272536687631,
      "grad_norm": 0.09238899499177933,
      "learning_rate": 0.000865096138432723,
      "loss": 0.5135,
      "num_input_tokens_seen": 7870400,
      "step": 12040
    },
    {
      "epoch": 6.312893081761006,
      "grad_norm": 0.08439063280820847,
      "learning_rate": 0.0008649398526426512,
      "loss": 0.379,
      "num_input_tokens_seen": 7875008,
      "step": 12045
    },
    {
      "epoch": 6.315513626834382,
      "grad_norm": 0.07041961699724197,
      "learning_rate": 0.0008647834905113256,
      "loss": 0.4936,
      "num_input_tokens_seen": 7878560,
      "step": 12050
    },
    {
      "epoch": 6.318134171907757,
      "grad_norm": 0.05990225821733475,
      "learning_rate": 0.0008646270520714556,
      "loss": 0.3956,
      "num_input_tokens_seen": 7881984,
      "step": 12055
    },
    {
      "epoch": 6.320754716981132,
      "grad_norm": 0.06805335730314255,
      "learning_rate": 0.0008644705373557663,
      "loss": 0.4288,
      "num_input_tokens_seen": 7885056,
      "step": 12060
    },
    {
      "epoch": 6.323375262054507,
      "grad_norm": 0.053588587790727615,
      "learning_rate": 0.0008643139463969985,
      "loss": 0.5084,
      "num_input_tokens_seen": 7888928,
      "step": 12065
    },
    {
      "epoch": 6.325995807127883,
      "grad_norm": 0.08607081323862076,
      "learning_rate": 0.0008641572792279095,
      "loss": 0.5081,
      "num_input_tokens_seen": 7891648,
      "step": 12070
    },
    {
      "epoch": 6.328616352201258,
      "grad_norm": 0.09748372435569763,
      "learning_rate": 0.0008640005358812723,
      "loss": 0.3956,
      "num_input_tokens_seen": 7894432,
      "step": 12075
    },
    {
      "epoch": 6.331236897274633,
      "grad_norm": 0.1113482266664505,
      "learning_rate": 0.0008638437163898756,
      "loss": 0.4122,
      "num_input_tokens_seen": 7896608,
      "step": 12080
    },
    {
      "epoch": 6.333857442348008,
      "grad_norm": 0.12041696161031723,
      "learning_rate": 0.0008636868207865244,
      "loss": 0.5108,
      "num_input_tokens_seen": 7900000,
      "step": 12085
    },
    {
      "epoch": 6.336477987421383,
      "grad_norm": 0.16871695220470428,
      "learning_rate": 0.0008635298491040394,
      "loss": 0.4038,
      "num_input_tokens_seen": 7902848,
      "step": 12090
    },
    {
      "epoch": 6.339098532494759,
      "grad_norm": 0.07953695952892303,
      "learning_rate": 0.0008633728013752574,
      "loss": 0.345,
      "num_input_tokens_seen": 7905760,
      "step": 12095
    },
    {
      "epoch": 6.3417190775681345,
      "grad_norm": 0.0811266377568245,
      "learning_rate": 0.000863215677633031,
      "loss": 0.5211,
      "num_input_tokens_seen": 7909408,
      "step": 12100
    },
    {
      "epoch": 6.34433962264151,
      "grad_norm": 0.07854097336530685,
      "learning_rate": 0.0008630584779102285,
      "loss": 0.4113,
      "num_input_tokens_seen": 7912768,
      "step": 12105
    },
    {
      "epoch": 6.346960167714885,
      "grad_norm": 0.12082534283399582,
      "learning_rate": 0.0008629012022397344,
      "loss": 0.552,
      "num_input_tokens_seen": 7915488,
      "step": 12110
    },
    {
      "epoch": 6.34958071278826,
      "grad_norm": 0.0764133632183075,
      "learning_rate": 0.0008627438506544491,
      "loss": 0.4817,
      "num_input_tokens_seen": 7918592,
      "step": 12115
    },
    {
      "epoch": 6.352201257861635,
      "grad_norm": 0.09468822181224823,
      "learning_rate": 0.0008625864231872886,
      "loss": 0.4681,
      "num_input_tokens_seen": 7921952,
      "step": 12120
    },
    {
      "epoch": 6.35482180293501,
      "grad_norm": 0.06923462450504303,
      "learning_rate": 0.000862428919871185,
      "loss": 0.4541,
      "num_input_tokens_seen": 7925632,
      "step": 12125
    },
    {
      "epoch": 6.3574423480083855,
      "grad_norm": 0.08547455072402954,
      "learning_rate": 0.0008622713407390861,
      "loss": 0.4238,
      "num_input_tokens_seen": 7928896,
      "step": 12130
    },
    {
      "epoch": 6.360062893081761,
      "grad_norm": 0.07086560875177383,
      "learning_rate": 0.0008621136858239557,
      "loss": 0.4666,
      "num_input_tokens_seen": 7932064,
      "step": 12135
    },
    {
      "epoch": 6.362683438155136,
      "grad_norm": 0.08437865227460861,
      "learning_rate": 0.0008619559551587736,
      "loss": 0.5192,
      "num_input_tokens_seen": 7934688,
      "step": 12140
    },
    {
      "epoch": 6.365303983228512,
      "grad_norm": 0.09293323010206223,
      "learning_rate": 0.0008617981487765349,
      "loss": 0.5325,
      "num_input_tokens_seen": 7937536,
      "step": 12145
    },
    {
      "epoch": 6.367924528301887,
      "grad_norm": 0.13185180723667145,
      "learning_rate": 0.0008616402667102512,
      "loss": 0.3591,
      "num_input_tokens_seen": 7940832,
      "step": 12150
    },
    {
      "epoch": 6.370545073375262,
      "grad_norm": 0.08470585942268372,
      "learning_rate": 0.0008614823089929495,
      "loss": 0.3765,
      "num_input_tokens_seen": 7943392,
      "step": 12155
    },
    {
      "epoch": 6.373165618448637,
      "grad_norm": 0.1130717471241951,
      "learning_rate": 0.0008613242756576728,
      "loss": 0.4217,
      "num_input_tokens_seen": 7946688,
      "step": 12160
    },
    {
      "epoch": 6.3757861635220126,
      "grad_norm": 0.07938813418149948,
      "learning_rate": 0.0008611661667374798,
      "loss": 0.5391,
      "num_input_tokens_seen": 7948960,
      "step": 12165
    },
    {
      "epoch": 6.378406708595388,
      "grad_norm": 0.11213918775320053,
      "learning_rate": 0.0008610079822654451,
      "loss": 0.3954,
      "num_input_tokens_seen": 7952832,
      "step": 12170
    },
    {
      "epoch": 6.381027253668763,
      "grad_norm": 0.10719453543424606,
      "learning_rate": 0.0008608497222746591,
      "loss": 0.4638,
      "num_input_tokens_seen": 7955616,
      "step": 12175
    },
    {
      "epoch": 6.383647798742138,
      "grad_norm": 0.060484547168016434,
      "learning_rate": 0.000860691386798228,
      "loss": 0.4937,
      "num_input_tokens_seen": 7959456,
      "step": 12180
    },
    {
      "epoch": 6.386268343815513,
      "grad_norm": 0.14598730206489563,
      "learning_rate": 0.000860532975869274,
      "loss": 0.6571,
      "num_input_tokens_seen": 7964128,
      "step": 12185
    },
    {
      "epoch": 6.388888888888889,
      "grad_norm": 0.13225486874580383,
      "learning_rate": 0.0008603744895209342,
      "loss": 0.4337,
      "num_input_tokens_seen": 7966816,
      "step": 12190
    },
    {
      "epoch": 6.3915094339622645,
      "grad_norm": 0.08933774381875992,
      "learning_rate": 0.0008602159277863628,
      "loss": 0.6567,
      "num_input_tokens_seen": 7969600,
      "step": 12195
    },
    {
      "epoch": 6.39412997903564,
      "grad_norm": 0.09018618613481522,
      "learning_rate": 0.0008600572906987289,
      "loss": 0.482,
      "num_input_tokens_seen": 7972672,
      "step": 12200
    },
    {
      "epoch": 6.396750524109015,
      "grad_norm": 0.10962013155221939,
      "learning_rate": 0.0008598985782912174,
      "loss": 0.5056,
      "num_input_tokens_seen": 7975744,
      "step": 12205
    },
    {
      "epoch": 6.39937106918239,
      "grad_norm": 0.09218209981918335,
      "learning_rate": 0.0008597397905970293,
      "loss": 0.551,
      "num_input_tokens_seen": 7978816,
      "step": 12210
    },
    {
      "epoch": 6.401991614255765,
      "grad_norm": 0.14019446074962616,
      "learning_rate": 0.0008595809276493812,
      "loss": 0.5013,
      "num_input_tokens_seen": 7981504,
      "step": 12215
    },
    {
      "epoch": 6.40461215932914,
      "grad_norm": 0.10090678930282593,
      "learning_rate": 0.0008594219894815054,
      "loss": 0.5065,
      "num_input_tokens_seen": 7984000,
      "step": 12220
    },
    {
      "epoch": 6.4072327044025155,
      "grad_norm": 0.09686583280563354,
      "learning_rate": 0.0008592629761266497,
      "loss": 0.4418,
      "num_input_tokens_seen": 7986624,
      "step": 12225
    },
    {
      "epoch": 6.409853249475891,
      "grad_norm": 0.1044892743229866,
      "learning_rate": 0.0008591038876180784,
      "loss": 0.4119,
      "num_input_tokens_seen": 7989728,
      "step": 12230
    },
    {
      "epoch": 6.412473794549266,
      "grad_norm": 0.08932572603225708,
      "learning_rate": 0.0008589447239890705,
      "loss": 0.5697,
      "num_input_tokens_seen": 7993696,
      "step": 12235
    },
    {
      "epoch": 6.415094339622642,
      "grad_norm": 0.08181502670049667,
      "learning_rate": 0.0008587854852729213,
      "loss": 0.4197,
      "num_input_tokens_seen": 7996192,
      "step": 12240
    },
    {
      "epoch": 6.417714884696017,
      "grad_norm": 0.09307130426168442,
      "learning_rate": 0.000858626171502942,
      "loss": 0.5061,
      "num_input_tokens_seen": 8000192,
      "step": 12245
    },
    {
      "epoch": 6.420335429769392,
      "grad_norm": 0.07827909290790558,
      "learning_rate": 0.0008584667827124589,
      "loss": 0.5627,
      "num_input_tokens_seen": 8004256,
      "step": 12250
    },
    {
      "epoch": 6.422955974842767,
      "grad_norm": 0.08902708441019058,
      "learning_rate": 0.0008583073189348145,
      "loss": 0.6014,
      "num_input_tokens_seen": 8007200,
      "step": 12255
    },
    {
      "epoch": 6.4255765199161425,
      "grad_norm": 0.09893608838319778,
      "learning_rate": 0.0008581477802033668,
      "loss": 0.4582,
      "num_input_tokens_seen": 8011328,
      "step": 12260
    },
    {
      "epoch": 6.428197064989518,
      "grad_norm": 0.12131788581609726,
      "learning_rate": 0.0008579881665514895,
      "loss": 0.5337,
      "num_input_tokens_seen": 8014240,
      "step": 12265
    },
    {
      "epoch": 6.430817610062893,
      "grad_norm": 0.06343703716993332,
      "learning_rate": 0.0008578284780125718,
      "loss": 0.5166,
      "num_input_tokens_seen": 8017600,
      "step": 12270
    },
    {
      "epoch": 6.433438155136268,
      "grad_norm": 0.08081301301717758,
      "learning_rate": 0.0008576687146200189,
      "loss": 0.4986,
      "num_input_tokens_seen": 8020416,
      "step": 12275
    },
    {
      "epoch": 6.436058700209643,
      "grad_norm": 0.06930958479642868,
      "learning_rate": 0.0008575088764072511,
      "loss": 0.5007,
      "num_input_tokens_seen": 8023328,
      "step": 12280
    },
    {
      "epoch": 6.438679245283019,
      "grad_norm": 0.06117531284689903,
      "learning_rate": 0.0008573489634077054,
      "loss": 0.5952,
      "num_input_tokens_seen": 8026336,
      "step": 12285
    },
    {
      "epoch": 6.441299790356394,
      "grad_norm": 0.07602715492248535,
      "learning_rate": 0.0008571889756548333,
      "loss": 0.5658,
      "num_input_tokens_seen": 8029728,
      "step": 12290
    },
    {
      "epoch": 6.44392033542977,
      "grad_norm": 0.07211855798959732,
      "learning_rate": 0.0008570289131821025,
      "loss": 0.4691,
      "num_input_tokens_seen": 8033088,
      "step": 12295
    },
    {
      "epoch": 6.446540880503145,
      "grad_norm": 0.08598896861076355,
      "learning_rate": 0.0008568687760229963,
      "loss": 0.4186,
      "num_input_tokens_seen": 8036352,
      "step": 12300
    },
    {
      "epoch": 6.44916142557652,
      "grad_norm": 0.07742460072040558,
      "learning_rate": 0.0008567085642110135,
      "loss": 0.4878,
      "num_input_tokens_seen": 8039616,
      "step": 12305
    },
    {
      "epoch": 6.451781970649895,
      "grad_norm": 0.32174816727638245,
      "learning_rate": 0.0008565482777796687,
      "loss": 0.5329,
      "num_input_tokens_seen": 8042240,
      "step": 12310
    },
    {
      "epoch": 6.45440251572327,
      "grad_norm": 0.07789864391088486,
      "learning_rate": 0.0008563879167624919,
      "loss": 0.5365,
      "num_input_tokens_seen": 8046816,
      "step": 12315
    },
    {
      "epoch": 6.4570230607966455,
      "grad_norm": 0.047501809895038605,
      "learning_rate": 0.0008562274811930287,
      "loss": 0.4892,
      "num_input_tokens_seen": 8050528,
      "step": 12320
    },
    {
      "epoch": 6.459643605870021,
      "grad_norm": 0.11458753794431686,
      "learning_rate": 0.0008560669711048406,
      "loss": 0.5996,
      "num_input_tokens_seen": 8054336,
      "step": 12325
    },
    {
      "epoch": 6.462264150943396,
      "grad_norm": 0.09264478087425232,
      "learning_rate": 0.0008559063865315042,
      "loss": 0.5227,
      "num_input_tokens_seen": 8056832,
      "step": 12330
    },
    {
      "epoch": 6.464884696016772,
      "grad_norm": 0.17847144603729248,
      "learning_rate": 0.0008557457275066122,
      "loss": 0.4811,
      "num_input_tokens_seen": 8059616,
      "step": 12335
    },
    {
      "epoch": 6.467505241090147,
      "grad_norm": 0.07734554260969162,
      "learning_rate": 0.0008555849940637725,
      "loss": 0.5071,
      "num_input_tokens_seen": 8062400,
      "step": 12340
    },
    {
      "epoch": 6.470125786163522,
      "grad_norm": 0.06290613859891891,
      "learning_rate": 0.000855424186236609,
      "loss": 0.48,
      "num_input_tokens_seen": 8065824,
      "step": 12345
    },
    {
      "epoch": 6.472746331236897,
      "grad_norm": 0.21037699282169342,
      "learning_rate": 0.0008552633040587605,
      "loss": 0.3487,
      "num_input_tokens_seen": 8068544,
      "step": 12350
    },
    {
      "epoch": 6.4753668763102725,
      "grad_norm": 0.13418741524219513,
      "learning_rate": 0.0008551023475638819,
      "loss": 0.5079,
      "num_input_tokens_seen": 8071712,
      "step": 12355
    },
    {
      "epoch": 6.477987421383648,
      "grad_norm": 0.10422717779874802,
      "learning_rate": 0.0008549413167856432,
      "loss": 0.493,
      "num_input_tokens_seen": 8075360,
      "step": 12360
    },
    {
      "epoch": 6.480607966457023,
      "grad_norm": 0.10148102790117264,
      "learning_rate": 0.0008547802117577307,
      "loss": 0.4519,
      "num_input_tokens_seen": 8078720,
      "step": 12365
    },
    {
      "epoch": 6.483228511530398,
      "grad_norm": 0.07103542983531952,
      "learning_rate": 0.0008546190325138454,
      "loss": 0.4238,
      "num_input_tokens_seen": 8081504,
      "step": 12370
    },
    {
      "epoch": 6.485849056603773,
      "grad_norm": 0.08990202099084854,
      "learning_rate": 0.000854457779087704,
      "loss": 0.4648,
      "num_input_tokens_seen": 8084608,
      "step": 12375
    },
    {
      "epoch": 6.488469601677149,
      "grad_norm": 0.07619300484657288,
      "learning_rate": 0.0008542964515130392,
      "loss": 0.5447,
      "num_input_tokens_seen": 8087936,
      "step": 12380
    },
    {
      "epoch": 6.491090146750524,
      "grad_norm": 0.10701238363981247,
      "learning_rate": 0.0008541350498235989,
      "loss": 0.3186,
      "num_input_tokens_seen": 8091648,
      "step": 12385
    },
    {
      "epoch": 6.4937106918239,
      "grad_norm": 0.05839085578918457,
      "learning_rate": 0.0008539735740531462,
      "loss": 0.5188,
      "num_input_tokens_seen": 8094848,
      "step": 12390
    },
    {
      "epoch": 6.496331236897275,
      "grad_norm": 0.060285452753305435,
      "learning_rate": 0.0008538120242354602,
      "loss": 0.4923,
      "num_input_tokens_seen": 8097952,
      "step": 12395
    },
    {
      "epoch": 6.49895178197065,
      "grad_norm": 0.1164950504899025,
      "learning_rate": 0.0008536504004043353,
      "loss": 0.4878,
      "num_input_tokens_seen": 8102016,
      "step": 12400
    },
    {
      "epoch": 6.501572327044025,
      "grad_norm": 0.07772408425807953,
      "learning_rate": 0.0008534887025935811,
      "loss": 0.7171,
      "num_input_tokens_seen": 8105568,
      "step": 12405
    },
    {
      "epoch": 6.5041928721174,
      "grad_norm": 0.07942918688058853,
      "learning_rate": 0.0008533269308370233,
      "loss": 0.4852,
      "num_input_tokens_seen": 8108864,
      "step": 12410
    },
    {
      "epoch": 6.506813417190775,
      "grad_norm": 0.06430866569280624,
      "learning_rate": 0.0008531650851685025,
      "loss": 0.4087,
      "num_input_tokens_seen": 8112032,
      "step": 12415
    },
    {
      "epoch": 6.509433962264151,
      "grad_norm": 0.10051361471414566,
      "learning_rate": 0.000853003165621875,
      "loss": 0.7687,
      "num_input_tokens_seen": 8115136,
      "step": 12420
    },
    {
      "epoch": 6.512054507337526,
      "grad_norm": 0.05923045799136162,
      "learning_rate": 0.0008528411722310126,
      "loss": 0.5166,
      "num_input_tokens_seen": 8120704,
      "step": 12425
    },
    {
      "epoch": 6.514675052410902,
      "grad_norm": 0.10951319336891174,
      "learning_rate": 0.0008526791050298022,
      "loss": 0.4393,
      "num_input_tokens_seen": 8123904,
      "step": 12430
    },
    {
      "epoch": 6.517295597484277,
      "grad_norm": 0.07062624394893646,
      "learning_rate": 0.0008525169640521467,
      "loss": 0.5588,
      "num_input_tokens_seen": 8127264,
      "step": 12435
    },
    {
      "epoch": 6.519916142557652,
      "grad_norm": 0.0917111411690712,
      "learning_rate": 0.0008523547493319641,
      "loss": 0.5462,
      "num_input_tokens_seen": 8130048,
      "step": 12440
    },
    {
      "epoch": 6.522536687631027,
      "grad_norm": 0.07799054682254791,
      "learning_rate": 0.0008521924609031877,
      "loss": 0.402,
      "num_input_tokens_seen": 8133440,
      "step": 12445
    },
    {
      "epoch": 6.5251572327044025,
      "grad_norm": 0.10636621713638306,
      "learning_rate": 0.0008520300987997667,
      "loss": 0.5238,
      "num_input_tokens_seen": 8137216,
      "step": 12450
    },
    {
      "epoch": 6.527777777777778,
      "grad_norm": 0.07106807827949524,
      "learning_rate": 0.000851867663055665,
      "loss": 0.5861,
      "num_input_tokens_seen": 8141408,
      "step": 12455
    },
    {
      "epoch": 6.530398322851153,
      "grad_norm": 0.07516557723283768,
      "learning_rate": 0.0008517051537048625,
      "loss": 0.5242,
      "num_input_tokens_seen": 8144832,
      "step": 12460
    },
    {
      "epoch": 6.533018867924528,
      "grad_norm": 0.11396831274032593,
      "learning_rate": 0.0008515425707813544,
      "loss": 0.4568,
      "num_input_tokens_seen": 8147584,
      "step": 12465
    },
    {
      "epoch": 6.535639412997903,
      "grad_norm": 0.11201171576976776,
      "learning_rate": 0.0008513799143191512,
      "loss": 0.4953,
      "num_input_tokens_seen": 8150528,
      "step": 12470
    },
    {
      "epoch": 6.538259958071279,
      "grad_norm": 0.06152345612645149,
      "learning_rate": 0.0008512171843522786,
      "loss": 0.4846,
      "num_input_tokens_seen": 8154304,
      "step": 12475
    },
    {
      "epoch": 6.540880503144654,
      "grad_norm": 0.09033113718032837,
      "learning_rate": 0.000851054380914778,
      "loss": 0.6031,
      "num_input_tokens_seen": 8156832,
      "step": 12480
    },
    {
      "epoch": 6.54350104821803,
      "grad_norm": 0.13168057799339294,
      "learning_rate": 0.0008508915040407057,
      "loss": 0.4396,
      "num_input_tokens_seen": 8159456,
      "step": 12485
    },
    {
      "epoch": 6.546121593291405,
      "grad_norm": 0.15872938930988312,
      "learning_rate": 0.0008507285537641342,
      "loss": 0.4638,
      "num_input_tokens_seen": 8162720,
      "step": 12490
    },
    {
      "epoch": 6.54874213836478,
      "grad_norm": 0.05401282384991646,
      "learning_rate": 0.0008505655301191504,
      "loss": 0.4622,
      "num_input_tokens_seen": 8165824,
      "step": 12495
    },
    {
      "epoch": 6.551362683438155,
      "grad_norm": 0.10019300878047943,
      "learning_rate": 0.0008504024331398572,
      "loss": 0.5081,
      "num_input_tokens_seen": 8168928,
      "step": 12500
    },
    {
      "epoch": 6.55398322851153,
      "grad_norm": 0.06999041140079498,
      "learning_rate": 0.0008502392628603727,
      "loss": 0.4367,
      "num_input_tokens_seen": 8172320,
      "step": 12505
    },
    {
      "epoch": 6.556603773584905,
      "grad_norm": 0.05878950655460358,
      "learning_rate": 0.0008500760193148301,
      "loss": 0.3817,
      "num_input_tokens_seen": 8175360,
      "step": 12510
    },
    {
      "epoch": 6.559224318658281,
      "grad_norm": 0.07318822294473648,
      "learning_rate": 0.0008499127025373781,
      "loss": 0.634,
      "num_input_tokens_seen": 8178464,
      "step": 12515
    },
    {
      "epoch": 6.561844863731656,
      "grad_norm": 0.10971884429454803,
      "learning_rate": 0.0008497493125621807,
      "loss": 0.4171,
      "num_input_tokens_seen": 8181536,
      "step": 12520
    },
    {
      "epoch": 6.564465408805032,
      "grad_norm": 0.09801479429006577,
      "learning_rate": 0.0008495858494234173,
      "loss": 0.5889,
      "num_input_tokens_seen": 8187328,
      "step": 12525
    },
    {
      "epoch": 6.567085953878407,
      "grad_norm": 0.09519205242395401,
      "learning_rate": 0.0008494223131552825,
      "loss": 0.5279,
      "num_input_tokens_seen": 8190400,
      "step": 12530
    },
    {
      "epoch": 6.569706498951782,
      "grad_norm": 0.06716182082891464,
      "learning_rate": 0.0008492587037919864,
      "loss": 0.3765,
      "num_input_tokens_seen": 8193568,
      "step": 12535
    },
    {
      "epoch": 6.572327044025157,
      "grad_norm": 0.08355138450860977,
      "learning_rate": 0.0008490950213677537,
      "loss": 0.573,
      "num_input_tokens_seen": 8196672,
      "step": 12540
    },
    {
      "epoch": 6.5749475890985325,
      "grad_norm": 0.1126994863152504,
      "learning_rate": 0.0008489312659168254,
      "loss": 0.5788,
      "num_input_tokens_seen": 8199744,
      "step": 12545
    },
    {
      "epoch": 6.577568134171908,
      "grad_norm": 0.0816497951745987,
      "learning_rate": 0.0008487674374734569,
      "loss": 0.4473,
      "num_input_tokens_seen": 8201984,
      "step": 12550
    },
    {
      "epoch": 6.580188679245283,
      "grad_norm": 0.07722007483243942,
      "learning_rate": 0.0008486035360719197,
      "loss": 0.4396,
      "num_input_tokens_seen": 8205344,
      "step": 12555
    },
    {
      "epoch": 6.582809224318658,
      "grad_norm": 0.09733480215072632,
      "learning_rate": 0.0008484395617464997,
      "loss": 0.4251,
      "num_input_tokens_seen": 8208736,
      "step": 12560
    },
    {
      "epoch": 6.585429769392033,
      "grad_norm": 0.06188438460230827,
      "learning_rate": 0.0008482755145314986,
      "loss": 0.5452,
      "num_input_tokens_seen": 8212832,
      "step": 12565
    },
    {
      "epoch": 6.588050314465409,
      "grad_norm": 0.06188129633665085,
      "learning_rate": 0.0008481113944612331,
      "loss": 0.4671,
      "num_input_tokens_seen": 8216512,
      "step": 12570
    },
    {
      "epoch": 6.590670859538784,
      "grad_norm": 0.11274557560682297,
      "learning_rate": 0.0008479472015700356,
      "loss": 0.5648,
      "num_input_tokens_seen": 8220000,
      "step": 12575
    },
    {
      "epoch": 6.59329140461216,
      "grad_norm": 0.11531449854373932,
      "learning_rate": 0.0008477829358922529,
      "loss": 0.3611,
      "num_input_tokens_seen": 8223840,
      "step": 12580
    },
    {
      "epoch": 6.595911949685535,
      "grad_norm": 0.16079799830913544,
      "learning_rate": 0.0008476185974622477,
      "loss": 0.4723,
      "num_input_tokens_seen": 8226688,
      "step": 12585
    },
    {
      "epoch": 6.59853249475891,
      "grad_norm": 0.05316415801644325,
      "learning_rate": 0.0008474541863143978,
      "loss": 0.4145,
      "num_input_tokens_seen": 8230208,
      "step": 12590
    },
    {
      "epoch": 6.601153039832285,
      "grad_norm": 0.11240261793136597,
      "learning_rate": 0.0008472897024830961,
      "loss": 0.3759,
      "num_input_tokens_seen": 8232448,
      "step": 12595
    },
    {
      "epoch": 6.60377358490566,
      "grad_norm": 0.14188237488269806,
      "learning_rate": 0.0008471251460027508,
      "loss": 0.4675,
      "num_input_tokens_seen": 8235136,
      "step": 12600
    },
    {
      "epoch": 6.606394129979035,
      "grad_norm": 0.1079041138291359,
      "learning_rate": 0.0008469605169077852,
      "loss": 0.4828,
      "num_input_tokens_seen": 8237856,
      "step": 12605
    },
    {
      "epoch": 6.609014675052411,
      "grad_norm": 0.1060209795832634,
      "learning_rate": 0.0008467958152326377,
      "loss": 0.3961,
      "num_input_tokens_seen": 8241472,
      "step": 12610
    },
    {
      "epoch": 6.611635220125786,
      "grad_norm": 0.07928093522787094,
      "learning_rate": 0.0008466310410117622,
      "loss": 0.5513,
      "num_input_tokens_seen": 8245504,
      "step": 12615
    },
    {
      "epoch": 6.614255765199162,
      "grad_norm": 0.06995833665132523,
      "learning_rate": 0.0008464661942796275,
      "loss": 0.5008,
      "num_input_tokens_seen": 8248480,
      "step": 12620
    },
    {
      "epoch": 6.616876310272537,
      "grad_norm": 0.08849824965000153,
      "learning_rate": 0.0008463012750707175,
      "loss": 0.5904,
      "num_input_tokens_seen": 8251968,
      "step": 12625
    },
    {
      "epoch": 6.619496855345912,
      "grad_norm": 0.14507794380187988,
      "learning_rate": 0.0008461362834195316,
      "loss": 0.4984,
      "num_input_tokens_seen": 8254496,
      "step": 12630
    },
    {
      "epoch": 6.622117400419287,
      "grad_norm": 0.14065130054950714,
      "learning_rate": 0.0008459712193605842,
      "loss": 0.6508,
      "num_input_tokens_seen": 8257472,
      "step": 12635
    },
    {
      "epoch": 6.6247379454926625,
      "grad_norm": 0.06729382276535034,
      "learning_rate": 0.0008458060829284048,
      "loss": 0.5195,
      "num_input_tokens_seen": 8260768,
      "step": 12640
    },
    {
      "epoch": 6.627358490566038,
      "grad_norm": 0.06823093444108963,
      "learning_rate": 0.0008456408741575378,
      "loss": 0.4355,
      "num_input_tokens_seen": 8264672,
      "step": 12645
    },
    {
      "epoch": 6.629979035639413,
      "grad_norm": 0.06901219487190247,
      "learning_rate": 0.0008454755930825435,
      "loss": 0.3886,
      "num_input_tokens_seen": 8267424,
      "step": 12650
    },
    {
      "epoch": 6.632599580712788,
      "grad_norm": 0.09964179247617722,
      "learning_rate": 0.0008453102397379963,
      "loss": 0.5258,
      "num_input_tokens_seen": 8270912,
      "step": 12655
    },
    {
      "epoch": 6.635220125786163,
      "grad_norm": 0.10892292857170105,
      "learning_rate": 0.0008451448141584868,
      "loss": 0.4617,
      "num_input_tokens_seen": 8274080,
      "step": 12660
    },
    {
      "epoch": 6.637840670859539,
      "grad_norm": 0.11583682149648666,
      "learning_rate": 0.0008449793163786194,
      "loss": 0.3674,
      "num_input_tokens_seen": 8278656,
      "step": 12665
    },
    {
      "epoch": 6.640461215932914,
      "grad_norm": 0.07426353543996811,
      "learning_rate": 0.0008448137464330149,
      "loss": 0.3312,
      "num_input_tokens_seen": 8282496,
      "step": 12670
    },
    {
      "epoch": 6.6430817610062896,
      "grad_norm": 0.1591174304485321,
      "learning_rate": 0.0008446481043563086,
      "loss": 0.4581,
      "num_input_tokens_seen": 8285504,
      "step": 12675
    },
    {
      "epoch": 6.645702306079665,
      "grad_norm": 0.1203729659318924,
      "learning_rate": 0.0008444823901831507,
      "loss": 0.5053,
      "num_input_tokens_seen": 8288448,
      "step": 12680
    },
    {
      "epoch": 6.64832285115304,
      "grad_norm": 0.17182035744190216,
      "learning_rate": 0.0008443166039482067,
      "loss": 0.3715,
      "num_input_tokens_seen": 8291072,
      "step": 12685
    },
    {
      "epoch": 6.650943396226415,
      "grad_norm": 0.09883740544319153,
      "learning_rate": 0.0008441507456861575,
      "loss": 0.5276,
      "num_input_tokens_seen": 8294144,
      "step": 12690
    },
    {
      "epoch": 6.65356394129979,
      "grad_norm": 0.06520706415176392,
      "learning_rate": 0.0008439848154316985,
      "loss": 0.5862,
      "num_input_tokens_seen": 8297408,
      "step": 12695
    },
    {
      "epoch": 6.656184486373165,
      "grad_norm": 0.12776032090187073,
      "learning_rate": 0.0008438188132195406,
      "loss": 0.4845,
      "num_input_tokens_seen": 8300768,
      "step": 12700
    },
    {
      "epoch": 6.658805031446541,
      "grad_norm": 0.06496071070432663,
      "learning_rate": 0.0008436527390844094,
      "loss": 0.4173,
      "num_input_tokens_seen": 8303616,
      "step": 12705
    },
    {
      "epoch": 6.661425576519916,
      "grad_norm": 0.06066594645380974,
      "learning_rate": 0.0008434865930610458,
      "loss": 0.5579,
      "num_input_tokens_seen": 8307424,
      "step": 12710
    },
    {
      "epoch": 6.664046121593291,
      "grad_norm": 0.08664068579673767,
      "learning_rate": 0.0008433203751842057,
      "loss": 0.4479,
      "num_input_tokens_seen": 8310560,
      "step": 12715
    },
    {
      "epoch": 6.666666666666667,
      "grad_norm": 0.1030777171254158,
      "learning_rate": 0.0008431540854886598,
      "loss": 0.4994,
      "num_input_tokens_seen": 8312992,
      "step": 12720
    },
    {
      "epoch": 6.669287211740042,
      "grad_norm": 0.08155987411737442,
      "learning_rate": 0.0008429877240091941,
      "loss": 0.3694,
      "num_input_tokens_seen": 8316544,
      "step": 12725
    },
    {
      "epoch": 6.671907756813417,
      "grad_norm": 0.13085275888442993,
      "learning_rate": 0.0008428212907806097,
      "loss": 0.4221,
      "num_input_tokens_seen": 8319520,
      "step": 12730
    },
    {
      "epoch": 6.6745283018867925,
      "grad_norm": 0.09703975915908813,
      "learning_rate": 0.0008426547858377222,
      "loss": 0.4791,
      "num_input_tokens_seen": 8323872,
      "step": 12735
    },
    {
      "epoch": 6.677148846960168,
      "grad_norm": 0.07332845032215118,
      "learning_rate": 0.0008424882092153629,
      "loss": 0.4259,
      "num_input_tokens_seen": 8326976,
      "step": 12740
    },
    {
      "epoch": 6.679769392033543,
      "grad_norm": 0.06118813157081604,
      "learning_rate": 0.0008423215609483774,
      "loss": 0.3939,
      "num_input_tokens_seen": 8330304,
      "step": 12745
    },
    {
      "epoch": 6.682389937106918,
      "grad_norm": 0.16360081732273102,
      "learning_rate": 0.0008421548410716269,
      "loss": 0.4012,
      "num_input_tokens_seen": 8333632,
      "step": 12750
    },
    {
      "epoch": 6.685010482180293,
      "grad_norm": 0.10107995569705963,
      "learning_rate": 0.0008419880496199869,
      "loss": 0.4439,
      "num_input_tokens_seen": 8336896,
      "step": 12755
    },
    {
      "epoch": 6.687631027253669,
      "grad_norm": 0.04999615252017975,
      "learning_rate": 0.0008418211866283488,
      "loss": 0.446,
      "num_input_tokens_seen": 8340512,
      "step": 12760
    },
    {
      "epoch": 6.690251572327044,
      "grad_norm": 0.07402575761079788,
      "learning_rate": 0.0008416542521316182,
      "loss": 0.4878,
      "num_input_tokens_seen": 8343680,
      "step": 12765
    },
    {
      "epoch": 6.6928721174004195,
      "grad_norm": 0.05859225615859032,
      "learning_rate": 0.0008414872461647156,
      "loss": 0.4851,
      "num_input_tokens_seen": 8347456,
      "step": 12770
    },
    {
      "epoch": 6.695492662473795,
      "grad_norm": 0.0559244379401207,
      "learning_rate": 0.0008413201687625772,
      "loss": 0.5455,
      "num_input_tokens_seen": 8351200,
      "step": 12775
    },
    {
      "epoch": 6.69811320754717,
      "grad_norm": 0.1418774574995041,
      "learning_rate": 0.0008411530199601534,
      "loss": 0.5046,
      "num_input_tokens_seen": 8354240,
      "step": 12780
    },
    {
      "epoch": 6.700733752620545,
      "grad_norm": 0.08146093040704727,
      "learning_rate": 0.0008409857997924097,
      "loss": 0.5201,
      "num_input_tokens_seen": 8357856,
      "step": 12785
    },
    {
      "epoch": 6.70335429769392,
      "grad_norm": 0.08067361265420914,
      "learning_rate": 0.0008408185082943271,
      "loss": 0.4578,
      "num_input_tokens_seen": 8361184,
      "step": 12790
    },
    {
      "epoch": 6.705974842767295,
      "grad_norm": 0.08986294269561768,
      "learning_rate": 0.0008406511455009007,
      "loss": 0.4636,
      "num_input_tokens_seen": 8364256,
      "step": 12795
    },
    {
      "epoch": 6.7085953878406706,
      "grad_norm": 0.096501424908638,
      "learning_rate": 0.000840483711447141,
      "loss": 0.447,
      "num_input_tokens_seen": 8367232,
      "step": 12800
    },
    {
      "epoch": 6.711215932914046,
      "grad_norm": 0.09277191758155823,
      "learning_rate": 0.0008403162061680736,
      "loss": 0.5699,
      "num_input_tokens_seen": 8370688,
      "step": 12805
    },
    {
      "epoch": 6.713836477987421,
      "grad_norm": 0.06799682974815369,
      "learning_rate": 0.0008401486296987382,
      "loss": 0.4841,
      "num_input_tokens_seen": 8374464,
      "step": 12810
    },
    {
      "epoch": 6.716457023060797,
      "grad_norm": 0.034438639879226685,
      "learning_rate": 0.0008399809820741901,
      "loss": 0.4606,
      "num_input_tokens_seen": 8382368,
      "step": 12815
    },
    {
      "epoch": 6.719077568134172,
      "grad_norm": 0.08714766055345535,
      "learning_rate": 0.0008398132633294993,
      "loss": 0.5045,
      "num_input_tokens_seen": 8385248,
      "step": 12820
    },
    {
      "epoch": 6.721698113207547,
      "grad_norm": 0.12955500185489655,
      "learning_rate": 0.0008396454734997506,
      "loss": 0.4449,
      "num_input_tokens_seen": 8388128,
      "step": 12825
    },
    {
      "epoch": 6.7243186582809225,
      "grad_norm": 0.07161837071180344,
      "learning_rate": 0.0008394776126200436,
      "loss": 0.4669,
      "num_input_tokens_seen": 8391008,
      "step": 12830
    },
    {
      "epoch": 6.726939203354298,
      "grad_norm": 0.08591535687446594,
      "learning_rate": 0.0008393096807254931,
      "loss": 0.3866,
      "num_input_tokens_seen": 8393952,
      "step": 12835
    },
    {
      "epoch": 6.729559748427673,
      "grad_norm": 0.12608814239501953,
      "learning_rate": 0.0008391416778512284,
      "loss": 0.4249,
      "num_input_tokens_seen": 8396704,
      "step": 12840
    },
    {
      "epoch": 6.732180293501048,
      "grad_norm": 0.08736366033554077,
      "learning_rate": 0.0008389736040323939,
      "loss": 0.4894,
      "num_input_tokens_seen": 8400160,
      "step": 12845
    },
    {
      "epoch": 6.734800838574423,
      "grad_norm": 0.07731249183416367,
      "learning_rate": 0.0008388054593041485,
      "loss": 0.4299,
      "num_input_tokens_seen": 8403168,
      "step": 12850
    },
    {
      "epoch": 6.737421383647799,
      "grad_norm": 0.06775341182947159,
      "learning_rate": 0.0008386372437016665,
      "loss": 0.3131,
      "num_input_tokens_seen": 8405952,
      "step": 12855
    },
    {
      "epoch": 6.740041928721174,
      "grad_norm": 0.15239866077899933,
      "learning_rate": 0.0008384689572601364,
      "loss": 0.4199,
      "num_input_tokens_seen": 8408192,
      "step": 12860
    },
    {
      "epoch": 6.7426624737945495,
      "grad_norm": 0.09276789426803589,
      "learning_rate": 0.000838300600014762,
      "loss": 0.3984,
      "num_input_tokens_seen": 8410688,
      "step": 12865
    },
    {
      "epoch": 6.745283018867925,
      "grad_norm": 0.08720069378614426,
      "learning_rate": 0.0008381321720007613,
      "loss": 0.4032,
      "num_input_tokens_seen": 8414688,
      "step": 12870
    },
    {
      "epoch": 6.7479035639413,
      "grad_norm": 0.06899838894605637,
      "learning_rate": 0.0008379636732533681,
      "loss": 0.4135,
      "num_input_tokens_seen": 8418240,
      "step": 12875
    },
    {
      "epoch": 6.750524109014675,
      "grad_norm": 0.12290752679109573,
      "learning_rate": 0.0008377951038078302,
      "loss": 0.5339,
      "num_input_tokens_seen": 8421888,
      "step": 12880
    },
    {
      "epoch": 6.75314465408805,
      "grad_norm": 0.09410424530506134,
      "learning_rate": 0.0008376264636994102,
      "loss": 0.5619,
      "num_input_tokens_seen": 8424768,
      "step": 12885
    },
    {
      "epoch": 6.755765199161425,
      "grad_norm": 0.13439388573169708,
      "learning_rate": 0.000837457752963386,
      "loss": 0.3473,
      "num_input_tokens_seen": 8428576,
      "step": 12890
    },
    {
      "epoch": 6.7583857442348005,
      "grad_norm": 0.07596072554588318,
      "learning_rate": 0.0008372889716350496,
      "loss": 0.4925,
      "num_input_tokens_seen": 8431744,
      "step": 12895
    },
    {
      "epoch": 6.761006289308176,
      "grad_norm": 0.17976118624210358,
      "learning_rate": 0.0008371201197497084,
      "loss": 0.4068,
      "num_input_tokens_seen": 8435712,
      "step": 12900
    },
    {
      "epoch": 6.763626834381551,
      "grad_norm": 0.10670211911201477,
      "learning_rate": 0.0008369511973426842,
      "loss": 0.3892,
      "num_input_tokens_seen": 8439072,
      "step": 12905
    },
    {
      "epoch": 6.766247379454927,
      "grad_norm": 0.10238728672266006,
      "learning_rate": 0.0008367822044493138,
      "loss": 0.3442,
      "num_input_tokens_seen": 8443392,
      "step": 12910
    },
    {
      "epoch": 6.768867924528302,
      "grad_norm": 0.05441047251224518,
      "learning_rate": 0.0008366131411049483,
      "loss": 0.3897,
      "num_input_tokens_seen": 8446592,
      "step": 12915
    },
    {
      "epoch": 6.771488469601677,
      "grad_norm": 0.09376530349254608,
      "learning_rate": 0.000836444007344954,
      "loss": 0.4489,
      "num_input_tokens_seen": 8449632,
      "step": 12920
    },
    {
      "epoch": 6.774109014675052,
      "grad_norm": 0.05946061387658119,
      "learning_rate": 0.0008362748032047119,
      "loss": 0.4834,
      "num_input_tokens_seen": 8452608,
      "step": 12925
    },
    {
      "epoch": 6.776729559748428,
      "grad_norm": 0.07365923374891281,
      "learning_rate": 0.0008361055287196171,
      "loss": 0.4162,
      "num_input_tokens_seen": 8454880,
      "step": 12930
    },
    {
      "epoch": 6.779350104821803,
      "grad_norm": 0.07833992689847946,
      "learning_rate": 0.0008359361839250803,
      "loss": 0.49,
      "num_input_tokens_seen": 8457696,
      "step": 12935
    },
    {
      "epoch": 6.781970649895178,
      "grad_norm": 0.07100578397512436,
      "learning_rate": 0.0008357667688565265,
      "loss": 0.5461,
      "num_input_tokens_seen": 8461088,
      "step": 12940
    },
    {
      "epoch": 6.784591194968553,
      "grad_norm": 0.14940232038497925,
      "learning_rate": 0.0008355972835493951,
      "loss": 0.4646,
      "num_input_tokens_seen": 8464416,
      "step": 12945
    },
    {
      "epoch": 6.787211740041929,
      "grad_norm": 0.04589764401316643,
      "learning_rate": 0.0008354277280391408,
      "loss": 0.5474,
      "num_input_tokens_seen": 8468512,
      "step": 12950
    },
    {
      "epoch": 6.789832285115304,
      "grad_norm": 0.060631509870290756,
      "learning_rate": 0.0008352581023612324,
      "loss": 0.3904,
      "num_input_tokens_seen": 8472256,
      "step": 12955
    },
    {
      "epoch": 6.7924528301886795,
      "grad_norm": 0.07052464038133621,
      "learning_rate": 0.0008350884065511541,
      "loss": 0.405,
      "num_input_tokens_seen": 8476416,
      "step": 12960
    },
    {
      "epoch": 6.795073375262055,
      "grad_norm": 0.0820825845003128,
      "learning_rate": 0.0008349186406444038,
      "loss": 0.3867,
      "num_input_tokens_seen": 8481184,
      "step": 12965
    },
    {
      "epoch": 6.79769392033543,
      "grad_norm": 0.07512358576059341,
      "learning_rate": 0.0008347488046764949,
      "loss": 0.443,
      "num_input_tokens_seen": 8485472,
      "step": 12970
    },
    {
      "epoch": 6.800314465408805,
      "grad_norm": 0.09075628221035004,
      "learning_rate": 0.0008345788986829551,
      "loss": 0.5463,
      "num_input_tokens_seen": 8488544,
      "step": 12975
    },
    {
      "epoch": 6.80293501048218,
      "grad_norm": 0.15555022656917572,
      "learning_rate": 0.0008344089226993268,
      "loss": 0.4708,
      "num_input_tokens_seen": 8491712,
      "step": 12980
    },
    {
      "epoch": 6.805555555555555,
      "grad_norm": 0.08147357404232025,
      "learning_rate": 0.000834238876761167,
      "loss": 0.4321,
      "num_input_tokens_seen": 8495008,
      "step": 12985
    },
    {
      "epoch": 6.8081761006289305,
      "grad_norm": 0.08420640230178833,
      "learning_rate": 0.0008340687609040473,
      "loss": 0.3736,
      "num_input_tokens_seen": 8498464,
      "step": 12990
    },
    {
      "epoch": 6.810796645702306,
      "grad_norm": 0.07540926337242126,
      "learning_rate": 0.0008338985751635542,
      "loss": 0.4669,
      "num_input_tokens_seen": 8501696,
      "step": 12995
    },
    {
      "epoch": 6.813417190775681,
      "grad_norm": 0.1396864801645279,
      "learning_rate": 0.0008337283195752883,
      "loss": 0.5162,
      "num_input_tokens_seen": 8504288,
      "step": 13000
    },
    {
      "epoch": 6.816037735849057,
      "grad_norm": 0.062181685119867325,
      "learning_rate": 0.0008335579941748654,
      "loss": 0.4569,
      "num_input_tokens_seen": 8507840,
      "step": 13005
    },
    {
      "epoch": 6.818658280922432,
      "grad_norm": 0.08840620517730713,
      "learning_rate": 0.0008333875989979156,
      "loss": 0.4605,
      "num_input_tokens_seen": 8510944,
      "step": 13010
    },
    {
      "epoch": 6.821278825995807,
      "grad_norm": 0.08299820870161057,
      "learning_rate": 0.0008332171340800835,
      "loss": 0.5546,
      "num_input_tokens_seen": 8514944,
      "step": 13015
    },
    {
      "epoch": 6.823899371069182,
      "grad_norm": 0.08310350775718689,
      "learning_rate": 0.0008330465994570287,
      "loss": 0.6117,
      "num_input_tokens_seen": 8517920,
      "step": 13020
    },
    {
      "epoch": 6.826519916142558,
      "grad_norm": 0.0621081180870533,
      "learning_rate": 0.0008328759951644247,
      "loss": 0.506,
      "num_input_tokens_seen": 8520448,
      "step": 13025
    },
    {
      "epoch": 6.829140461215933,
      "grad_norm": 0.08014445006847382,
      "learning_rate": 0.0008327053212379603,
      "loss": 0.4848,
      "num_input_tokens_seen": 8524000,
      "step": 13030
    },
    {
      "epoch": 6.831761006289308,
      "grad_norm": 0.08179059624671936,
      "learning_rate": 0.0008325345777133382,
      "loss": 0.4079,
      "num_input_tokens_seen": 8526624,
      "step": 13035
    },
    {
      "epoch": 6.834381551362683,
      "grad_norm": 0.04613608494400978,
      "learning_rate": 0.0008323637646262763,
      "loss": 0.4576,
      "num_input_tokens_seen": 8529920,
      "step": 13040
    },
    {
      "epoch": 6.837002096436059,
      "grad_norm": 0.10276342183351517,
      "learning_rate": 0.0008321928820125067,
      "loss": 0.466,
      "num_input_tokens_seen": 8532672,
      "step": 13045
    },
    {
      "epoch": 6.839622641509434,
      "grad_norm": 0.09892567247152328,
      "learning_rate": 0.000832021929907776,
      "loss": 0.4221,
      "num_input_tokens_seen": 8535520,
      "step": 13050
    },
    {
      "epoch": 6.8422431865828095,
      "grad_norm": 0.11547806113958359,
      "learning_rate": 0.0008318509083478454,
      "loss": 0.5337,
      "num_input_tokens_seen": 8537920,
      "step": 13055
    },
    {
      "epoch": 6.844863731656185,
      "grad_norm": 0.06738729029893875,
      "learning_rate": 0.0008316798173684907,
      "loss": 0.4732,
      "num_input_tokens_seen": 8541984,
      "step": 13060
    },
    {
      "epoch": 6.84748427672956,
      "grad_norm": 0.07457859069108963,
      "learning_rate": 0.0008315086570055024,
      "loss": 0.4734,
      "num_input_tokens_seen": 8546272,
      "step": 13065
    },
    {
      "epoch": 6.850104821802935,
      "grad_norm": 0.15668341517448425,
      "learning_rate": 0.000831337427294685,
      "loss": 0.5639,
      "num_input_tokens_seen": 8549280,
      "step": 13070
    },
    {
      "epoch": 6.85272536687631,
      "grad_norm": 0.10106509923934937,
      "learning_rate": 0.0008311661282718579,
      "loss": 0.3913,
      "num_input_tokens_seen": 8552064,
      "step": 13075
    },
    {
      "epoch": 6.855345911949685,
      "grad_norm": 0.07158339023590088,
      "learning_rate": 0.0008309947599728549,
      "loss": 0.4285,
      "num_input_tokens_seen": 8555712,
      "step": 13080
    },
    {
      "epoch": 6.8579664570230605,
      "grad_norm": 0.06107943505048752,
      "learning_rate": 0.0008308233224335243,
      "loss": 0.4884,
      "num_input_tokens_seen": 8559328,
      "step": 13085
    },
    {
      "epoch": 6.860587002096436,
      "grad_norm": 0.08983895927667618,
      "learning_rate": 0.0008306518156897289,
      "loss": 0.5843,
      "num_input_tokens_seen": 8561856,
      "step": 13090
    },
    {
      "epoch": 6.863207547169811,
      "grad_norm": 0.10975608229637146,
      "learning_rate": 0.0008304802397773459,
      "loss": 0.5604,
      "num_input_tokens_seen": 8564960,
      "step": 13095
    },
    {
      "epoch": 6.865828092243187,
      "grad_norm": 0.058200396597385406,
      "learning_rate": 0.0008303085947322672,
      "loss": 0.5278,
      "num_input_tokens_seen": 8568640,
      "step": 13100
    },
    {
      "epoch": 6.868448637316562,
      "grad_norm": 0.0850680023431778,
      "learning_rate": 0.0008301368805903988,
      "loss": 0.4449,
      "num_input_tokens_seen": 8572064,
      "step": 13105
    },
    {
      "epoch": 6.871069182389937,
      "grad_norm": 0.08400808274745941,
      "learning_rate": 0.0008299650973876611,
      "loss": 0.387,
      "num_input_tokens_seen": 8575104,
      "step": 13110
    },
    {
      "epoch": 6.873689727463312,
      "grad_norm": 0.14430415630340576,
      "learning_rate": 0.0008297932451599898,
      "loss": 0.5597,
      "num_input_tokens_seen": 8577888,
      "step": 13115
    },
    {
      "epoch": 6.876310272536688,
      "grad_norm": 0.07175112515687943,
      "learning_rate": 0.0008296213239433339,
      "loss": 0.5256,
      "num_input_tokens_seen": 8580896,
      "step": 13120
    },
    {
      "epoch": 6.878930817610063,
      "grad_norm": 0.08048020303249359,
      "learning_rate": 0.0008294493337736577,
      "loss": 0.5043,
      "num_input_tokens_seen": 8584864,
      "step": 13125
    },
    {
      "epoch": 6.881551362683438,
      "grad_norm": 0.08799047023057938,
      "learning_rate": 0.0008292772746869392,
      "loss": 0.7068,
      "num_input_tokens_seen": 8587936,
      "step": 13130
    },
    {
      "epoch": 6.884171907756813,
      "grad_norm": 0.07671498507261276,
      "learning_rate": 0.0008291051467191717,
      "loss": 0.4326,
      "num_input_tokens_seen": 8592064,
      "step": 13135
    },
    {
      "epoch": 6.886792452830189,
      "grad_norm": 0.19671936333179474,
      "learning_rate": 0.000828932949906362,
      "loss": 0.5015,
      "num_input_tokens_seen": 8595136,
      "step": 13140
    },
    {
      "epoch": 6.889412997903564,
      "grad_norm": 0.08963139355182648,
      "learning_rate": 0.0008287606842845319,
      "loss": 0.4516,
      "num_input_tokens_seen": 8597472,
      "step": 13145
    },
    {
      "epoch": 6.8920335429769395,
      "grad_norm": 0.13817830383777618,
      "learning_rate": 0.0008285883498897174,
      "loss": 0.5207,
      "num_input_tokens_seen": 8600000,
      "step": 13150
    },
    {
      "epoch": 6.894654088050315,
      "grad_norm": 0.05551764369010925,
      "learning_rate": 0.0008284159467579686,
      "loss": 0.3783,
      "num_input_tokens_seen": 8604960,
      "step": 13155
    },
    {
      "epoch": 6.89727463312369,
      "grad_norm": 0.054201070219278336,
      "learning_rate": 0.0008282434749253507,
      "loss": 0.459,
      "num_input_tokens_seen": 8607776,
      "step": 13160
    },
    {
      "epoch": 6.899895178197065,
      "grad_norm": 0.09390752762556076,
      "learning_rate": 0.0008280709344279426,
      "loss": 0.4341,
      "num_input_tokens_seen": 8610944,
      "step": 13165
    },
    {
      "epoch": 6.90251572327044,
      "grad_norm": 0.09920217841863632,
      "learning_rate": 0.0008278983253018377,
      "loss": 0.5574,
      "num_input_tokens_seen": 8614368,
      "step": 13170
    },
    {
      "epoch": 6.905136268343815,
      "grad_norm": 0.07538285106420517,
      "learning_rate": 0.0008277256475831443,
      "loss": 0.4395,
      "num_input_tokens_seen": 8618272,
      "step": 13175
    },
    {
      "epoch": 6.9077568134171905,
      "grad_norm": 0.12504629790782928,
      "learning_rate": 0.0008275529013079841,
      "loss": 0.3139,
      "num_input_tokens_seen": 8620640,
      "step": 13180
    },
    {
      "epoch": 6.910377358490566,
      "grad_norm": 0.07331188023090363,
      "learning_rate": 0.0008273800865124941,
      "loss": 0.3974,
      "num_input_tokens_seen": 8624192,
      "step": 13185
    },
    {
      "epoch": 6.912997903563941,
      "grad_norm": 0.1418311595916748,
      "learning_rate": 0.0008272072032328246,
      "loss": 0.3451,
      "num_input_tokens_seen": 8627072,
      "step": 13190
    },
    {
      "epoch": 6.915618448637317,
      "grad_norm": 0.08214571326971054,
      "learning_rate": 0.0008270342515051414,
      "loss": 0.4517,
      "num_input_tokens_seen": 8631232,
      "step": 13195
    },
    {
      "epoch": 6.918238993710692,
      "grad_norm": 0.08648310601711273,
      "learning_rate": 0.0008268612313656238,
      "loss": 0.5955,
      "num_input_tokens_seen": 8633696,
      "step": 13200
    },
    {
      "epoch": 6.920859538784067,
      "grad_norm": 0.10431905835866928,
      "learning_rate": 0.0008266881428504655,
      "loss": 0.3367,
      "num_input_tokens_seen": 8636800,
      "step": 13205
    },
    {
      "epoch": 6.923480083857442,
      "grad_norm": 0.09362583607435226,
      "learning_rate": 0.000826514985995875,
      "loss": 0.4681,
      "num_input_tokens_seen": 8639968,
      "step": 13210
    },
    {
      "epoch": 6.926100628930818,
      "grad_norm": 0.05956472456455231,
      "learning_rate": 0.0008263417608380743,
      "loss": 0.4762,
      "num_input_tokens_seen": 8643328,
      "step": 13215
    },
    {
      "epoch": 6.928721174004193,
      "grad_norm": 0.08357498049736023,
      "learning_rate": 0.0008261684674133003,
      "loss": 0.4184,
      "num_input_tokens_seen": 8646144,
      "step": 13220
    },
    {
      "epoch": 6.931341719077568,
      "grad_norm": 0.04621240869164467,
      "learning_rate": 0.0008259951057578041,
      "loss": 0.4908,
      "num_input_tokens_seen": 8649536,
      "step": 13225
    },
    {
      "epoch": 6.933962264150943,
      "grad_norm": 0.07627677917480469,
      "learning_rate": 0.000825821675907851,
      "loss": 0.3482,
      "num_input_tokens_seen": 8652992,
      "step": 13230
    },
    {
      "epoch": 6.936582809224319,
      "grad_norm": 0.11366547644138336,
      "learning_rate": 0.0008256481778997205,
      "loss": 0.4216,
      "num_input_tokens_seen": 8656608,
      "step": 13235
    },
    {
      "epoch": 6.939203354297694,
      "grad_norm": 0.06962153315544128,
      "learning_rate": 0.0008254746117697062,
      "loss": 0.6274,
      "num_input_tokens_seen": 8659744,
      "step": 13240
    },
    {
      "epoch": 6.9418238993710695,
      "grad_norm": 0.08828501403331757,
      "learning_rate": 0.0008253009775541165,
      "loss": 0.489,
      "num_input_tokens_seen": 8662176,
      "step": 13245
    },
    {
      "epoch": 6.944444444444445,
      "grad_norm": 0.0865308940410614,
      "learning_rate": 0.0008251272752892733,
      "loss": 0.435,
      "num_input_tokens_seen": 8665184,
      "step": 13250
    },
    {
      "epoch": 6.94706498951782,
      "grad_norm": 0.21479342877864838,
      "learning_rate": 0.0008249535050115135,
      "loss": 0.4381,
      "num_input_tokens_seen": 8668096,
      "step": 13255
    },
    {
      "epoch": 6.949685534591195,
      "grad_norm": 0.047591183334589005,
      "learning_rate": 0.0008247796667571879,
      "loss": 0.4258,
      "num_input_tokens_seen": 8671392,
      "step": 13260
    },
    {
      "epoch": 6.95230607966457,
      "grad_norm": 0.0837162509560585,
      "learning_rate": 0.000824605760562661,
      "loss": 0.6572,
      "num_input_tokens_seen": 8675360,
      "step": 13265
    },
    {
      "epoch": 6.954926624737945,
      "grad_norm": 0.07483939081430435,
      "learning_rate": 0.0008244317864643125,
      "loss": 0.3577,
      "num_input_tokens_seen": 8678880,
      "step": 13270
    },
    {
      "epoch": 6.9575471698113205,
      "grad_norm": 0.11908353865146637,
      "learning_rate": 0.0008242577444985355,
      "loss": 0.3538,
      "num_input_tokens_seen": 8682176,
      "step": 13275
    },
    {
      "epoch": 6.960167714884696,
      "grad_norm": 0.11975222826004028,
      "learning_rate": 0.0008240836347017375,
      "loss": 0.3771,
      "num_input_tokens_seen": 8685024,
      "step": 13280
    },
    {
      "epoch": 6.962788259958071,
      "grad_norm": 0.13403993844985962,
      "learning_rate": 0.0008239094571103408,
      "loss": 0.6255,
      "num_input_tokens_seen": 8688768,
      "step": 13285
    },
    {
      "epoch": 6.965408805031447,
      "grad_norm": 0.058468397706747055,
      "learning_rate": 0.0008237352117607808,
      "loss": 0.4079,
      "num_input_tokens_seen": 8692032,
      "step": 13290
    },
    {
      "epoch": 6.968029350104822,
      "grad_norm": 0.0761718899011612,
      "learning_rate": 0.000823560898689508,
      "loss": 0.5109,
      "num_input_tokens_seen": 8695744,
      "step": 13295
    },
    {
      "epoch": 6.970649895178197,
      "grad_norm": 0.060423899441957474,
      "learning_rate": 0.0008233865179329865,
      "loss": 0.5143,
      "num_input_tokens_seen": 8699680,
      "step": 13300
    },
    {
      "epoch": 6.973270440251572,
      "grad_norm": 0.05440184846520424,
      "learning_rate": 0.0008232120695276948,
      "loss": 0.3766,
      "num_input_tokens_seen": 8702816,
      "step": 13305
    },
    {
      "epoch": 6.975890985324948,
      "grad_norm": 0.06546007841825485,
      "learning_rate": 0.0008230375535101255,
      "loss": 0.4057,
      "num_input_tokens_seen": 8705600,
      "step": 13310
    },
    {
      "epoch": 6.978511530398323,
      "grad_norm": 0.0906500369310379,
      "learning_rate": 0.0008228629699167855,
      "loss": 0.4523,
      "num_input_tokens_seen": 8708064,
      "step": 13315
    },
    {
      "epoch": 6.981132075471698,
      "grad_norm": 0.10631517320871353,
      "learning_rate": 0.0008226883187841957,
      "loss": 0.3765,
      "num_input_tokens_seen": 8710944,
      "step": 13320
    },
    {
      "epoch": 6.983752620545073,
      "grad_norm": 0.08591029793024063,
      "learning_rate": 0.0008225136001488908,
      "loss": 0.5688,
      "num_input_tokens_seen": 8714368,
      "step": 13325
    },
    {
      "epoch": 6.986373165618449,
      "grad_norm": 0.07069700211286545,
      "learning_rate": 0.0008223388140474205,
      "loss": 0.4879,
      "num_input_tokens_seen": 8717824,
      "step": 13330
    },
    {
      "epoch": 6.988993710691824,
      "grad_norm": 0.07841911911964417,
      "learning_rate": 0.0008221639605163476,
      "loss": 0.4471,
      "num_input_tokens_seen": 8720928,
      "step": 13335
    },
    {
      "epoch": 6.9916142557651995,
      "grad_norm": 0.16862601041793823,
      "learning_rate": 0.0008219890395922495,
      "loss": 0.5084,
      "num_input_tokens_seen": 8724704,
      "step": 13340
    },
    {
      "epoch": 6.994234800838575,
      "grad_norm": 0.09447376430034637,
      "learning_rate": 0.0008218140513117178,
      "loss": 0.4183,
      "num_input_tokens_seen": 8727232,
      "step": 13345
    },
    {
      "epoch": 6.99685534591195,
      "grad_norm": 0.12840083241462708,
      "learning_rate": 0.0008216389957113582,
      "loss": 0.4852,
      "num_input_tokens_seen": 8729920,
      "step": 13350
    },
    {
      "epoch": 6.999475890985325,
      "grad_norm": 0.09240606427192688,
      "learning_rate": 0.0008214638728277899,
      "loss": 0.6452,
      "num_input_tokens_seen": 8732928,
      "step": 13355
    },
    {
      "epoch": 7.0,
      "eval_loss": 0.45062053203582764,
      "eval_runtime": 13.3513,
      "eval_samples_per_second": 63.515,
      "eval_steps_per_second": 15.879,
      "num_input_tokens_seen": 8733024,
      "step": 13356
    },
    {
      "epoch": 7.0020964360587,
      "grad_norm": 0.04493561014533043,
      "learning_rate": 0.0008212886826976469,
      "loss": 0.5195,
      "num_input_tokens_seen": 8736160,
      "step": 13360
    },
    {
      "epoch": 7.004716981132075,
      "grad_norm": 0.0651836022734642,
      "learning_rate": 0.0008211134253575769,
      "loss": 0.4513,
      "num_input_tokens_seen": 8738656,
      "step": 13365
    },
    {
      "epoch": 7.0073375262054505,
      "grad_norm": 0.05925656482577324,
      "learning_rate": 0.000820938100844242,
      "loss": 0.6709,
      "num_input_tokens_seen": 8742240,
      "step": 13370
    },
    {
      "epoch": 7.009958071278826,
      "grad_norm": 0.0731264278292656,
      "learning_rate": 0.0008207627091943177,
      "loss": 0.475,
      "num_input_tokens_seen": 8745312,
      "step": 13375
    },
    {
      "epoch": 7.012578616352202,
      "grad_norm": 0.11338448524475098,
      "learning_rate": 0.000820587250444494,
      "loss": 0.4216,
      "num_input_tokens_seen": 8748032,
      "step": 13380
    },
    {
      "epoch": 7.015199161425577,
      "grad_norm": 0.11230906844139099,
      "learning_rate": 0.0008204117246314752,
      "loss": 0.5733,
      "num_input_tokens_seen": 8751584,
      "step": 13385
    },
    {
      "epoch": 7.017819706498952,
      "grad_norm": 0.050724949687719345,
      "learning_rate": 0.0008202361317919788,
      "loss": 0.3595,
      "num_input_tokens_seen": 8754432,
      "step": 13390
    },
    {
      "epoch": 7.020440251572327,
      "grad_norm": 0.10200914740562439,
      "learning_rate": 0.0008200604719627373,
      "loss": 0.5011,
      "num_input_tokens_seen": 8757344,
      "step": 13395
    },
    {
      "epoch": 7.023060796645702,
      "grad_norm": 0.013292321003973484,
      "learning_rate": 0.0008198847451804964,
      "loss": 0.4081,
      "num_input_tokens_seen": 8764288,
      "step": 13400
    },
    {
      "epoch": 7.0256813417190775,
      "grad_norm": 0.054236799478530884,
      "learning_rate": 0.0008197089514820162,
      "loss": 0.4354,
      "num_input_tokens_seen": 8768160,
      "step": 13405
    },
    {
      "epoch": 7.028301886792453,
      "grad_norm": 0.06945497542619705,
      "learning_rate": 0.0008195330909040708,
      "loss": 0.3772,
      "num_input_tokens_seen": 8771712,
      "step": 13410
    },
    {
      "epoch": 7.030922431865828,
      "grad_norm": 0.0833013579249382,
      "learning_rate": 0.0008193571634834483,
      "loss": 0.4669,
      "num_input_tokens_seen": 8775136,
      "step": 13415
    },
    {
      "epoch": 7.033542976939203,
      "grad_norm": 0.2774341106414795,
      "learning_rate": 0.0008191811692569506,
      "loss": 0.5096,
      "num_input_tokens_seen": 8778304,
      "step": 13420
    },
    {
      "epoch": 7.036163522012578,
      "grad_norm": 0.10484900325536728,
      "learning_rate": 0.0008190051082613936,
      "loss": 0.4484,
      "num_input_tokens_seen": 8781024,
      "step": 13425
    },
    {
      "epoch": 7.038784067085954,
      "grad_norm": 0.130684494972229,
      "learning_rate": 0.0008188289805336074,
      "loss": 0.574,
      "num_input_tokens_seen": 8784000,
      "step": 13430
    },
    {
      "epoch": 7.0414046121593294,
      "grad_norm": 0.08751862496137619,
      "learning_rate": 0.0008186527861104359,
      "loss": 0.5687,
      "num_input_tokens_seen": 8787424,
      "step": 13435
    },
    {
      "epoch": 7.044025157232705,
      "grad_norm": 0.06188115105032921,
      "learning_rate": 0.0008184765250287369,
      "loss": 0.3753,
      "num_input_tokens_seen": 8790816,
      "step": 13440
    },
    {
      "epoch": 7.04664570230608,
      "grad_norm": 0.20064052939414978,
      "learning_rate": 0.0008183001973253823,
      "loss": 0.3744,
      "num_input_tokens_seen": 8792992,
      "step": 13445
    },
    {
      "epoch": 7.049266247379455,
      "grad_norm": 0.09173229336738586,
      "learning_rate": 0.0008181238030372576,
      "loss": 0.3209,
      "num_input_tokens_seen": 8795840,
      "step": 13450
    },
    {
      "epoch": 7.05188679245283,
      "grad_norm": 0.10179274529218674,
      "learning_rate": 0.0008179473422012628,
      "loss": 0.4117,
      "num_input_tokens_seen": 8798560,
      "step": 13455
    },
    {
      "epoch": 7.054507337526205,
      "grad_norm": 0.12290333211421967,
      "learning_rate": 0.0008177708148543114,
      "loss": 0.6487,
      "num_input_tokens_seen": 8802240,
      "step": 13460
    },
    {
      "epoch": 7.0571278825995805,
      "grad_norm": 0.1141396313905716,
      "learning_rate": 0.0008175942210333307,
      "loss": 0.373,
      "num_input_tokens_seen": 8804960,
      "step": 13465
    },
    {
      "epoch": 7.059748427672956,
      "grad_norm": 0.11860973387956619,
      "learning_rate": 0.0008174175607752626,
      "loss": 0.4487,
      "num_input_tokens_seen": 8808000,
      "step": 13470
    },
    {
      "epoch": 7.062368972746331,
      "grad_norm": 0.08602716028690338,
      "learning_rate": 0.0008172408341170617,
      "loss": 0.4212,
      "num_input_tokens_seen": 8811008,
      "step": 13475
    },
    {
      "epoch": 7.064989517819707,
      "grad_norm": 0.06883896142244339,
      "learning_rate": 0.0008170640410956976,
      "loss": 0.4343,
      "num_input_tokens_seen": 8813728,
      "step": 13480
    },
    {
      "epoch": 7.067610062893082,
      "grad_norm": 0.08753262460231781,
      "learning_rate": 0.0008168871817481536,
      "loss": 0.5105,
      "num_input_tokens_seen": 8817824,
      "step": 13485
    },
    {
      "epoch": 7.070230607966457,
      "grad_norm": 0.22170935571193695,
      "learning_rate": 0.0008167102561114261,
      "loss": 0.4685,
      "num_input_tokens_seen": 8822848,
      "step": 13490
    },
    {
      "epoch": 7.072851153039832,
      "grad_norm": 0.09246493875980377,
      "learning_rate": 0.0008165332642225265,
      "loss": 0.4532,
      "num_input_tokens_seen": 8826016,
      "step": 13495
    },
    {
      "epoch": 7.0754716981132075,
      "grad_norm": 0.11847427487373352,
      "learning_rate": 0.0008163562061184791,
      "loss": 0.41,
      "num_input_tokens_seen": 8829088,
      "step": 13500
    },
    {
      "epoch": 7.078092243186583,
      "grad_norm": 0.0990653783082962,
      "learning_rate": 0.0008161790818363227,
      "loss": 0.4743,
      "num_input_tokens_seen": 8832448,
      "step": 13505
    },
    {
      "epoch": 7.080712788259958,
      "grad_norm": 0.14064623415470123,
      "learning_rate": 0.0008160018914131094,
      "loss": 0.4612,
      "num_input_tokens_seen": 8835232,
      "step": 13510
    },
    {
      "epoch": 7.083333333333333,
      "grad_norm": 0.09788533300161362,
      "learning_rate": 0.0008158246348859057,
      "loss": 0.3529,
      "num_input_tokens_seen": 8838176,
      "step": 13515
    },
    {
      "epoch": 7.085953878406708,
      "grad_norm": 0.062229663133621216,
      "learning_rate": 0.0008156473122917913,
      "loss": 0.3721,
      "num_input_tokens_seen": 8841120,
      "step": 13520
    },
    {
      "epoch": 7.088574423480084,
      "grad_norm": 0.1380244642496109,
      "learning_rate": 0.0008154699236678604,
      "loss": 0.5316,
      "num_input_tokens_seen": 8843744,
      "step": 13525
    },
    {
      "epoch": 7.091194968553459,
      "grad_norm": 0.09205683320760727,
      "learning_rate": 0.0008152924690512205,
      "loss": 0.4763,
      "num_input_tokens_seen": 8846944,
      "step": 13530
    },
    {
      "epoch": 7.093815513626835,
      "grad_norm": 0.3104715347290039,
      "learning_rate": 0.0008151149484789932,
      "loss": 0.4231,
      "num_input_tokens_seen": 8849888,
      "step": 13535
    },
    {
      "epoch": 7.09643605870021,
      "grad_norm": 0.13903358578681946,
      "learning_rate": 0.0008149373619883136,
      "loss": 0.4778,
      "num_input_tokens_seen": 8852608,
      "step": 13540
    },
    {
      "epoch": 7.099056603773585,
      "grad_norm": 0.1053788810968399,
      "learning_rate": 0.0008147597096163308,
      "loss": 0.427,
      "num_input_tokens_seen": 8855072,
      "step": 13545
    },
    {
      "epoch": 7.10167714884696,
      "grad_norm": 0.06155675649642944,
      "learning_rate": 0.0008145819914002079,
      "loss": 0.3812,
      "num_input_tokens_seen": 8858656,
      "step": 13550
    },
    {
      "epoch": 7.104297693920335,
      "grad_norm": 0.12614738941192627,
      "learning_rate": 0.0008144042073771214,
      "loss": 0.5859,
      "num_input_tokens_seen": 8861856,
      "step": 13555
    },
    {
      "epoch": 7.1069182389937104,
      "grad_norm": 0.10498131066560745,
      "learning_rate": 0.0008142263575842615,
      "loss": 0.4493,
      "num_input_tokens_seen": 8864704,
      "step": 13560
    },
    {
      "epoch": 7.109538784067086,
      "grad_norm": 0.117280013859272,
      "learning_rate": 0.0008140484420588323,
      "loss": 0.4641,
      "num_input_tokens_seen": 8867776,
      "step": 13565
    },
    {
      "epoch": 7.112159329140461,
      "grad_norm": 0.11400808393955231,
      "learning_rate": 0.000813870460838052,
      "loss": 0.5056,
      "num_input_tokens_seen": 8870560,
      "step": 13570
    },
    {
      "epoch": 7.114779874213837,
      "grad_norm": 0.056593116372823715,
      "learning_rate": 0.0008136924139591522,
      "loss": 0.5245,
      "num_input_tokens_seen": 8874112,
      "step": 13575
    },
    {
      "epoch": 7.117400419287212,
      "grad_norm": 0.08759712427854538,
      "learning_rate": 0.0008135143014593782,
      "loss": 0.4728,
      "num_input_tokens_seen": 8877184,
      "step": 13580
    },
    {
      "epoch": 7.120020964360587,
      "grad_norm": 0.07557069510221481,
      "learning_rate": 0.000813336123375989,
      "loss": 0.5468,
      "num_input_tokens_seen": 8880512,
      "step": 13585
    },
    {
      "epoch": 7.122641509433962,
      "grad_norm": 0.17668718099594116,
      "learning_rate": 0.0008131578797462575,
      "loss": 0.5111,
      "num_input_tokens_seen": 8883232,
      "step": 13590
    },
    {
      "epoch": 7.1252620545073375,
      "grad_norm": 0.08293557167053223,
      "learning_rate": 0.0008129795706074703,
      "loss": 0.5036,
      "num_input_tokens_seen": 8887008,
      "step": 13595
    },
    {
      "epoch": 7.127882599580713,
      "grad_norm": 0.1287047117948532,
      "learning_rate": 0.0008128011959969277,
      "loss": 0.4387,
      "num_input_tokens_seen": 8889952,
      "step": 13600
    },
    {
      "epoch": 7.130503144654088,
      "grad_norm": 0.06744182109832764,
      "learning_rate": 0.0008126227559519434,
      "loss": 0.4761,
      "num_input_tokens_seen": 8893408,
      "step": 13605
    },
    {
      "epoch": 7.133123689727463,
      "grad_norm": 0.10720868408679962,
      "learning_rate": 0.0008124442505098452,
      "loss": 0.4327,
      "num_input_tokens_seen": 8897248,
      "step": 13610
    },
    {
      "epoch": 7.135744234800838,
      "grad_norm": 0.07316575199365616,
      "learning_rate": 0.0008122656797079744,
      "loss": 0.5067,
      "num_input_tokens_seen": 8901152,
      "step": 13615
    },
    {
      "epoch": 7.138364779874214,
      "grad_norm": 0.10307122021913528,
      "learning_rate": 0.0008120870435836858,
      "loss": 0.5507,
      "num_input_tokens_seen": 8904800,
      "step": 13620
    },
    {
      "epoch": 7.140985324947589,
      "grad_norm": 0.08874274790287018,
      "learning_rate": 0.0008119083421743481,
      "loss": 0.4818,
      "num_input_tokens_seen": 8907840,
      "step": 13625
    },
    {
      "epoch": 7.143605870020965,
      "grad_norm": 0.07701989263296127,
      "learning_rate": 0.0008117295755173437,
      "loss": 0.4065,
      "num_input_tokens_seen": 8910976,
      "step": 13630
    },
    {
      "epoch": 7.14622641509434,
      "grad_norm": 0.10396401584148407,
      "learning_rate": 0.0008115507436500687,
      "loss": 0.4725,
      "num_input_tokens_seen": 8913728,
      "step": 13635
    },
    {
      "epoch": 7.148846960167715,
      "grad_norm": 0.052142735570669174,
      "learning_rate": 0.0008113718466099322,
      "loss": 0.3784,
      "num_input_tokens_seen": 8916928,
      "step": 13640
    },
    {
      "epoch": 7.15146750524109,
      "grad_norm": 0.156911239027977,
      "learning_rate": 0.0008111928844343579,
      "loss": 0.4984,
      "num_input_tokens_seen": 8920128,
      "step": 13645
    },
    {
      "epoch": 7.154088050314465,
      "grad_norm": 0.0594852939248085,
      "learning_rate": 0.0008110138571607823,
      "loss": 0.4379,
      "num_input_tokens_seen": 8923424,
      "step": 13650
    },
    {
      "epoch": 7.15670859538784,
      "grad_norm": 0.07879867404699326,
      "learning_rate": 0.0008108347648266563,
      "loss": 0.3446,
      "num_input_tokens_seen": 8925856,
      "step": 13655
    },
    {
      "epoch": 7.159329140461216,
      "grad_norm": 0.18201154470443726,
      "learning_rate": 0.0008106556074694434,
      "loss": 0.4005,
      "num_input_tokens_seen": 8928544,
      "step": 13660
    },
    {
      "epoch": 7.161949685534591,
      "grad_norm": 0.11928807944059372,
      "learning_rate": 0.0008104763851266216,
      "loss": 0.5014,
      "num_input_tokens_seen": 8931136,
      "step": 13665
    },
    {
      "epoch": 7.164570230607967,
      "grad_norm": 0.08709875494241714,
      "learning_rate": 0.0008102970978356822,
      "loss": 0.4575,
      "num_input_tokens_seen": 8934336,
      "step": 13670
    },
    {
      "epoch": 7.167190775681342,
      "grad_norm": 0.1321212649345398,
      "learning_rate": 0.00081011774563413,
      "loss": 0.5596,
      "num_input_tokens_seen": 8936896,
      "step": 13675
    },
    {
      "epoch": 7.169811320754717,
      "grad_norm": 0.11345341056585312,
      "learning_rate": 0.0008099383285594835,
      "loss": 0.3992,
      "num_input_tokens_seen": 8940224,
      "step": 13680
    },
    {
      "epoch": 7.172431865828092,
      "grad_norm": 0.14449746906757355,
      "learning_rate": 0.0008097588466492746,
      "loss": 0.4747,
      "num_input_tokens_seen": 8943840,
      "step": 13685
    },
    {
      "epoch": 7.1750524109014675,
      "grad_norm": 0.17137478291988373,
      "learning_rate": 0.0008095792999410487,
      "loss": 0.4596,
      "num_input_tokens_seen": 8946624,
      "step": 13690
    },
    {
      "epoch": 7.177672955974843,
      "grad_norm": 0.19552414119243622,
      "learning_rate": 0.0008093996884723653,
      "loss": 0.6182,
      "num_input_tokens_seen": 8950272,
      "step": 13695
    },
    {
      "epoch": 7.180293501048218,
      "grad_norm": 0.09226398915052414,
      "learning_rate": 0.0008092200122807969,
      "loss": 0.4059,
      "num_input_tokens_seen": 8952608,
      "step": 13700
    },
    {
      "epoch": 7.182914046121593,
      "grad_norm": 0.08313823491334915,
      "learning_rate": 0.0008090402714039295,
      "loss": 0.639,
      "num_input_tokens_seen": 8955744,
      "step": 13705
    },
    {
      "epoch": 7.185534591194968,
      "grad_norm": 0.07843616604804993,
      "learning_rate": 0.0008088604658793632,
      "loss": 0.2924,
      "num_input_tokens_seen": 8958496,
      "step": 13710
    },
    {
      "epoch": 7.188155136268344,
      "grad_norm": 0.12587182223796844,
      "learning_rate": 0.0008086805957447111,
      "loss": 0.4729,
      "num_input_tokens_seen": 8961856,
      "step": 13715
    },
    {
      "epoch": 7.190775681341719,
      "grad_norm": 0.0577995702624321,
      "learning_rate": 0.0008085006610376,
      "loss": 0.4227,
      "num_input_tokens_seen": 8964608,
      "step": 13720
    },
    {
      "epoch": 7.193396226415095,
      "grad_norm": 0.06572795659303665,
      "learning_rate": 0.0008083206617956702,
      "loss": 0.3996,
      "num_input_tokens_seen": 8970016,
      "step": 13725
    },
    {
      "epoch": 7.19601677148847,
      "grad_norm": 0.16375792026519775,
      "learning_rate": 0.0008081405980565755,
      "loss": 0.4219,
      "num_input_tokens_seen": 8973088,
      "step": 13730
    },
    {
      "epoch": 7.198637316561845,
      "grad_norm": 0.06801855564117432,
      "learning_rate": 0.0008079604698579829,
      "loss": 0.4985,
      "num_input_tokens_seen": 8976416,
      "step": 13735
    },
    {
      "epoch": 7.20125786163522,
      "grad_norm": 0.11636959761381149,
      "learning_rate": 0.0008077802772375736,
      "loss": 0.3957,
      "num_input_tokens_seen": 8979424,
      "step": 13740
    },
    {
      "epoch": 7.203878406708595,
      "grad_norm": 0.11085481941699982,
      "learning_rate": 0.0008076000202330416,
      "loss": 0.515,
      "num_input_tokens_seen": 8982944,
      "step": 13745
    },
    {
      "epoch": 7.20649895178197,
      "grad_norm": 0.14356859028339386,
      "learning_rate": 0.0008074196988820945,
      "loss": 0.4341,
      "num_input_tokens_seen": 8986144,
      "step": 13750
    },
    {
      "epoch": 7.209119496855346,
      "grad_norm": 0.10526741296052933,
      "learning_rate": 0.0008072393132224539,
      "loss": 0.3735,
      "num_input_tokens_seen": 8990048,
      "step": 13755
    },
    {
      "epoch": 7.211740041928721,
      "grad_norm": 0.0644371435046196,
      "learning_rate": 0.0008070588632918541,
      "loss": 0.5354,
      "num_input_tokens_seen": 8992288,
      "step": 13760
    },
    {
      "epoch": 7.214360587002097,
      "grad_norm": 0.1006799191236496,
      "learning_rate": 0.000806878349128043,
      "loss": 0.4567,
      "num_input_tokens_seen": 8995200,
      "step": 13765
    },
    {
      "epoch": 7.216981132075472,
      "grad_norm": 0.10813256353139877,
      "learning_rate": 0.0008066977707687826,
      "loss": 0.5856,
      "num_input_tokens_seen": 8998112,
      "step": 13770
    },
    {
      "epoch": 7.219601677148847,
      "grad_norm": 0.0484950914978981,
      "learning_rate": 0.0008065171282518473,
      "loss": 0.5372,
      "num_input_tokens_seen": 9002560,
      "step": 13775
    },
    {
      "epoch": 7.222222222222222,
      "grad_norm": 0.07489696890115738,
      "learning_rate": 0.0008063364216150257,
      "loss": 0.4632,
      "num_input_tokens_seen": 9005536,
      "step": 13780
    },
    {
      "epoch": 7.2248427672955975,
      "grad_norm": 0.11906509101390839,
      "learning_rate": 0.0008061556508961199,
      "loss": 0.4696,
      "num_input_tokens_seen": 9008480,
      "step": 13785
    },
    {
      "epoch": 7.227463312368973,
      "grad_norm": 0.14182184636592865,
      "learning_rate": 0.0008059748161329443,
      "loss": 0.5784,
      "num_input_tokens_seen": 9011328,
      "step": 13790
    },
    {
      "epoch": 7.230083857442348,
      "grad_norm": 0.07339468598365784,
      "learning_rate": 0.0008057939173633282,
      "loss": 0.4866,
      "num_input_tokens_seen": 9014304,
      "step": 13795
    },
    {
      "epoch": 7.232704402515723,
      "grad_norm": 0.08602780848741531,
      "learning_rate": 0.0008056129546251132,
      "loss": 0.6289,
      "num_input_tokens_seen": 9016928,
      "step": 13800
    },
    {
      "epoch": 7.235324947589098,
      "grad_norm": 0.1022370308637619,
      "learning_rate": 0.0008054319279561546,
      "loss": 0.4474,
      "num_input_tokens_seen": 9019456,
      "step": 13805
    },
    {
      "epoch": 7.237945492662474,
      "grad_norm": 0.11974302679300308,
      "learning_rate": 0.0008052508373943214,
      "loss": 0.4878,
      "num_input_tokens_seen": 9022816,
      "step": 13810
    },
    {
      "epoch": 7.240566037735849,
      "grad_norm": 0.10615918785333633,
      "learning_rate": 0.0008050696829774954,
      "loss": 0.4127,
      "num_input_tokens_seen": 9025728,
      "step": 13815
    },
    {
      "epoch": 7.243186582809225,
      "grad_norm": 0.11575772613286972,
      "learning_rate": 0.0008048884647435721,
      "loss": 0.4876,
      "num_input_tokens_seen": 9028864,
      "step": 13820
    },
    {
      "epoch": 7.2458071278826,
      "grad_norm": 0.18931089341640472,
      "learning_rate": 0.0008047071827304604,
      "loss": 0.5121,
      "num_input_tokens_seen": 9032160,
      "step": 13825
    },
    {
      "epoch": 7.248427672955975,
      "grad_norm": 0.0736982449889183,
      "learning_rate": 0.0008045258369760824,
      "loss": 0.2869,
      "num_input_tokens_seen": 9035872,
      "step": 13830
    },
    {
      "epoch": 7.25104821802935,
      "grad_norm": 0.06347578763961792,
      "learning_rate": 0.0008043444275183735,
      "loss": 0.3787,
      "num_input_tokens_seen": 9039456,
      "step": 13835
    },
    {
      "epoch": 7.253668763102725,
      "grad_norm": 0.07783523201942444,
      "learning_rate": 0.0008041629543952824,
      "loss": 0.4956,
      "num_input_tokens_seen": 9042304,
      "step": 13840
    },
    {
      "epoch": 7.2562893081761,
      "grad_norm": 0.16483864188194275,
      "learning_rate": 0.0008039814176447714,
      "loss": 0.5688,
      "num_input_tokens_seen": 9045760,
      "step": 13845
    },
    {
      "epoch": 7.258909853249476,
      "grad_norm": 0.07657364010810852,
      "learning_rate": 0.0008037998173048157,
      "loss": 0.4528,
      "num_input_tokens_seen": 9048704,
      "step": 13850
    },
    {
      "epoch": 7.261530398322851,
      "grad_norm": 0.17042961716651917,
      "learning_rate": 0.0008036181534134044,
      "loss": 0.4779,
      "num_input_tokens_seen": 9052352,
      "step": 13855
    },
    {
      "epoch": 7.264150943396227,
      "grad_norm": 0.25346171855926514,
      "learning_rate": 0.0008034364260085391,
      "loss": 0.3679,
      "num_input_tokens_seen": 9055136,
      "step": 13860
    },
    {
      "epoch": 7.266771488469602,
      "grad_norm": 0.08488546311855316,
      "learning_rate": 0.0008032546351282353,
      "loss": 0.4597,
      "num_input_tokens_seen": 9057632,
      "step": 13865
    },
    {
      "epoch": 7.269392033542977,
      "grad_norm": 0.04966922104358673,
      "learning_rate": 0.0008030727808105215,
      "loss": 0.4068,
      "num_input_tokens_seen": 9061248,
      "step": 13870
    },
    {
      "epoch": 7.272012578616352,
      "grad_norm": 0.12669304013252258,
      "learning_rate": 0.0008028908630934397,
      "loss": 0.4197,
      "num_input_tokens_seen": 9064800,
      "step": 13875
    },
    {
      "epoch": 7.2746331236897275,
      "grad_norm": 0.11221029609441757,
      "learning_rate": 0.0008027088820150447,
      "loss": 0.4261,
      "num_input_tokens_seen": 9068928,
      "step": 13880
    },
    {
      "epoch": 7.277253668763103,
      "grad_norm": 0.06261096149682999,
      "learning_rate": 0.0008025268376134054,
      "loss": 0.3423,
      "num_input_tokens_seen": 9072160,
      "step": 13885
    },
    {
      "epoch": 7.279874213836478,
      "grad_norm": 0.09941459447145462,
      "learning_rate": 0.0008023447299266027,
      "loss": 0.4106,
      "num_input_tokens_seen": 9074784,
      "step": 13890
    },
    {
      "epoch": 7.282494758909853,
      "grad_norm": 0.07282570749521255,
      "learning_rate": 0.0008021625589927321,
      "loss": 0.3985,
      "num_input_tokens_seen": 9078688,
      "step": 13895
    },
    {
      "epoch": 7.285115303983228,
      "grad_norm": 0.17758488655090332,
      "learning_rate": 0.0008019803248499013,
      "loss": 0.5263,
      "num_input_tokens_seen": 9081184,
      "step": 13900
    },
    {
      "epoch": 7.287735849056604,
      "grad_norm": 0.06717189401388168,
      "learning_rate": 0.0008017980275362318,
      "loss": 0.5222,
      "num_input_tokens_seen": 9085344,
      "step": 13905
    },
    {
      "epoch": 7.290356394129979,
      "grad_norm": 0.070769302546978,
      "learning_rate": 0.000801615667089858,
      "loss": 0.4355,
      "num_input_tokens_seen": 9088384,
      "step": 13910
    },
    {
      "epoch": 7.2929769392033545,
      "grad_norm": 0.09672913700342178,
      "learning_rate": 0.0008014332435489275,
      "loss": 0.4233,
      "num_input_tokens_seen": 9090848,
      "step": 13915
    },
    {
      "epoch": 7.29559748427673,
      "grad_norm": 0.07772984355688095,
      "learning_rate": 0.0008012507569516016,
      "loss": 0.4664,
      "num_input_tokens_seen": 9095328,
      "step": 13920
    },
    {
      "epoch": 7.298218029350105,
      "grad_norm": 0.10106748342514038,
      "learning_rate": 0.0008010682073360541,
      "loss": 0.4204,
      "num_input_tokens_seen": 9098464,
      "step": 13925
    },
    {
      "epoch": 7.30083857442348,
      "grad_norm": 0.10581057518720627,
      "learning_rate": 0.0008008855947404724,
      "loss": 0.2989,
      "num_input_tokens_seen": 9103360,
      "step": 13930
    },
    {
      "epoch": 7.303459119496855,
      "grad_norm": 0.09517855942249298,
      "learning_rate": 0.000800702919203057,
      "loss": 0.3952,
      "num_input_tokens_seen": 9107328,
      "step": 13935
    },
    {
      "epoch": 7.30607966457023,
      "grad_norm": 0.06751789897680283,
      "learning_rate": 0.0008005201807620214,
      "loss": 0.4592,
      "num_input_tokens_seen": 9110848,
      "step": 13940
    },
    {
      "epoch": 7.308700209643606,
      "grad_norm": 0.08972495794296265,
      "learning_rate": 0.0008003373794555926,
      "loss": 0.5331,
      "num_input_tokens_seen": 9114112,
      "step": 13945
    },
    {
      "epoch": 7.311320754716981,
      "grad_norm": 0.22744375467300415,
      "learning_rate": 0.0008001545153220104,
      "loss": 0.4988,
      "num_input_tokens_seen": 9116512,
      "step": 13950
    },
    {
      "epoch": 7.313941299790357,
      "grad_norm": 0.0863567516207695,
      "learning_rate": 0.000799971588399528,
      "loss": 0.466,
      "num_input_tokens_seen": 9119584,
      "step": 13955
    },
    {
      "epoch": 7.316561844863732,
      "grad_norm": 0.10621613264083862,
      "learning_rate": 0.0007997885987264115,
      "loss": 0.5573,
      "num_input_tokens_seen": 9122784,
      "step": 13960
    },
    {
      "epoch": 7.319182389937107,
      "grad_norm": 0.0871371328830719,
      "learning_rate": 0.0007996055463409403,
      "loss": 0.4963,
      "num_input_tokens_seen": 9126080,
      "step": 13965
    },
    {
      "epoch": 7.321802935010482,
      "grad_norm": 0.22597776353359222,
      "learning_rate": 0.000799422431281407,
      "loss": 0.4716,
      "num_input_tokens_seen": 9128832,
      "step": 13970
    },
    {
      "epoch": 7.3244234800838575,
      "grad_norm": 0.09327300637960434,
      "learning_rate": 0.000799239253586117,
      "loss": 0.5757,
      "num_input_tokens_seen": 9132256,
      "step": 13975
    },
    {
      "epoch": 7.327044025157233,
      "grad_norm": 0.12678886950016022,
      "learning_rate": 0.0007990560132933891,
      "loss": 0.4642,
      "num_input_tokens_seen": 9135584,
      "step": 13980
    },
    {
      "epoch": 7.329664570230608,
      "grad_norm": 0.10564902424812317,
      "learning_rate": 0.0007988727104415549,
      "loss": 0.4569,
      "num_input_tokens_seen": 9138368,
      "step": 13985
    },
    {
      "epoch": 7.332285115303983,
      "grad_norm": 0.10489513725042343,
      "learning_rate": 0.0007986893450689594,
      "loss": 0.4408,
      "num_input_tokens_seen": 9141248,
      "step": 13990
    },
    {
      "epoch": 7.334905660377358,
      "grad_norm": 0.07725550979375839,
      "learning_rate": 0.0007985059172139606,
      "loss": 0.5089,
      "num_input_tokens_seen": 9145536,
      "step": 13995
    },
    {
      "epoch": 7.337526205450734,
      "grad_norm": 0.09617045521736145,
      "learning_rate": 0.0007983224269149296,
      "loss": 0.396,
      "num_input_tokens_seen": 9148224,
      "step": 14000
    },
    {
      "epoch": 7.340146750524109,
      "grad_norm": 0.1362772434949875,
      "learning_rate": 0.00079813887421025,
      "loss": 0.4282,
      "num_input_tokens_seen": 9152096,
      "step": 14005
    },
    {
      "epoch": 7.3427672955974845,
      "grad_norm": 0.058826595544815063,
      "learning_rate": 0.0007979552591383195,
      "loss": 0.5311,
      "num_input_tokens_seen": 9155232,
      "step": 14010
    },
    {
      "epoch": 7.34538784067086,
      "grad_norm": 0.09441033750772476,
      "learning_rate": 0.0007977715817375481,
      "loss": 0.391,
      "num_input_tokens_seen": 9158720,
      "step": 14015
    },
    {
      "epoch": 7.348008385744235,
      "grad_norm": 0.0610111765563488,
      "learning_rate": 0.0007975878420463588,
      "loss": 0.3151,
      "num_input_tokens_seen": 9162560,
      "step": 14020
    },
    {
      "epoch": 7.35062893081761,
      "grad_norm": 0.0561695322394371,
      "learning_rate": 0.0007974040401031882,
      "loss": 0.49,
      "num_input_tokens_seen": 9165504,
      "step": 14025
    },
    {
      "epoch": 7.353249475890985,
      "grad_norm": 0.09413307160139084,
      "learning_rate": 0.0007972201759464851,
      "loss": 0.474,
      "num_input_tokens_seen": 9168288,
      "step": 14030
    },
    {
      "epoch": 7.35587002096436,
      "grad_norm": 0.08553651720285416,
      "learning_rate": 0.0007970362496147121,
      "loss": 0.48,
      "num_input_tokens_seen": 9171168,
      "step": 14035
    },
    {
      "epoch": 7.3584905660377355,
      "grad_norm": 0.09665115922689438,
      "learning_rate": 0.0007968522611463447,
      "loss": 0.4147,
      "num_input_tokens_seen": 9176960,
      "step": 14040
    },
    {
      "epoch": 7.361111111111111,
      "grad_norm": 0.06911683827638626,
      "learning_rate": 0.0007966682105798708,
      "loss": 0.4553,
      "num_input_tokens_seen": 9181760,
      "step": 14045
    },
    {
      "epoch": 7.363731656184487,
      "grad_norm": 0.14832183718681335,
      "learning_rate": 0.0007964840979537918,
      "loss": 0.4432,
      "num_input_tokens_seen": 9185280,
      "step": 14050
    },
    {
      "epoch": 7.366352201257862,
      "grad_norm": 0.06480444222688675,
      "learning_rate": 0.0007962999233066219,
      "loss": 0.4519,
      "num_input_tokens_seen": 9189184,
      "step": 14055
    },
    {
      "epoch": 7.368972746331237,
      "grad_norm": 0.08108619600534439,
      "learning_rate": 0.0007961156866768885,
      "loss": 0.5129,
      "num_input_tokens_seen": 9191904,
      "step": 14060
    },
    {
      "epoch": 7.371593291404612,
      "grad_norm": 0.08192764967679977,
      "learning_rate": 0.0007959313881031317,
      "loss": 0.3388,
      "num_input_tokens_seen": 9194496,
      "step": 14065
    },
    {
      "epoch": 7.3742138364779874,
      "grad_norm": 0.06084800139069557,
      "learning_rate": 0.0007957470276239048,
      "loss": 0.3958,
      "num_input_tokens_seen": 9197184,
      "step": 14070
    },
    {
      "epoch": 7.376834381551363,
      "grad_norm": 0.07608258724212646,
      "learning_rate": 0.0007955626052777735,
      "loss": 0.4848,
      "num_input_tokens_seen": 9204128,
      "step": 14075
    },
    {
      "epoch": 7.379454926624738,
      "grad_norm": 0.08593446761369705,
      "learning_rate": 0.0007953781211033173,
      "loss": 0.3939,
      "num_input_tokens_seen": 9206912,
      "step": 14080
    },
    {
      "epoch": 7.382075471698113,
      "grad_norm": 0.08197829872369766,
      "learning_rate": 0.000795193575139128,
      "loss": 0.4557,
      "num_input_tokens_seen": 9210144,
      "step": 14085
    },
    {
      "epoch": 7.384696016771488,
      "grad_norm": 0.05946069210767746,
      "learning_rate": 0.0007950089674238106,
      "loss": 0.4335,
      "num_input_tokens_seen": 9214336,
      "step": 14090
    },
    {
      "epoch": 7.387316561844864,
      "grad_norm": 0.0837174504995346,
      "learning_rate": 0.0007948242979959828,
      "loss": 0.4544,
      "num_input_tokens_seen": 9217728,
      "step": 14095
    },
    {
      "epoch": 7.389937106918239,
      "grad_norm": 0.07323047518730164,
      "learning_rate": 0.0007946395668942754,
      "loss": 0.4964,
      "num_input_tokens_seen": 9221280,
      "step": 14100
    },
    {
      "epoch": 7.3925576519916145,
      "grad_norm": 0.05091644078493118,
      "learning_rate": 0.0007944547741573319,
      "loss": 0.4816,
      "num_input_tokens_seen": 9225376,
      "step": 14105
    },
    {
      "epoch": 7.39517819706499,
      "grad_norm": 0.07161545753479004,
      "learning_rate": 0.0007942699198238091,
      "loss": 0.4227,
      "num_input_tokens_seen": 9229088,
      "step": 14110
    },
    {
      "epoch": 7.397798742138365,
      "grad_norm": 0.08080442994832993,
      "learning_rate": 0.0007940850039323763,
      "loss": 0.4025,
      "num_input_tokens_seen": 9231840,
      "step": 14115
    },
    {
      "epoch": 7.40041928721174,
      "grad_norm": 0.09094422310590744,
      "learning_rate": 0.0007939000265217156,
      "loss": 0.4904,
      "num_input_tokens_seen": 9235264,
      "step": 14120
    },
    {
      "epoch": 7.403039832285115,
      "grad_norm": 0.06081642955541611,
      "learning_rate": 0.0007937149876305226,
      "loss": 0.5009,
      "num_input_tokens_seen": 9238656,
      "step": 14125
    },
    {
      "epoch": 7.40566037735849,
      "grad_norm": 0.08875791728496552,
      "learning_rate": 0.000793529887297505,
      "loss": 0.502,
      "num_input_tokens_seen": 9242144,
      "step": 14130
    },
    {
      "epoch": 7.4082809224318655,
      "grad_norm": 0.12067124992609024,
      "learning_rate": 0.0007933447255613835,
      "loss": 0.5032,
      "num_input_tokens_seen": 9245024,
      "step": 14135
    },
    {
      "epoch": 7.410901467505241,
      "grad_norm": 0.10160037875175476,
      "learning_rate": 0.0007931595024608924,
      "loss": 0.4318,
      "num_input_tokens_seen": 9248032,
      "step": 14140
    },
    {
      "epoch": 7.413522012578617,
      "grad_norm": 0.17383535206317902,
      "learning_rate": 0.0007929742180347776,
      "loss": 0.463,
      "num_input_tokens_seen": 9250240,
      "step": 14145
    },
    {
      "epoch": 7.416142557651992,
      "grad_norm": 0.076328806579113,
      "learning_rate": 0.0007927888723217991,
      "loss": 0.5142,
      "num_input_tokens_seen": 9253408,
      "step": 14150
    },
    {
      "epoch": 7.418763102725367,
      "grad_norm": 0.10366147011518478,
      "learning_rate": 0.0007926034653607288,
      "loss": 0.43,
      "num_input_tokens_seen": 9256320,
      "step": 14155
    },
    {
      "epoch": 7.421383647798742,
      "grad_norm": 0.059004250913858414,
      "learning_rate": 0.0007924179971903516,
      "loss": 0.4465,
      "num_input_tokens_seen": 9261312,
      "step": 14160
    },
    {
      "epoch": 7.424004192872117,
      "grad_norm": 0.09574192762374878,
      "learning_rate": 0.0007922324678494655,
      "loss": 0.5685,
      "num_input_tokens_seen": 9264544,
      "step": 14165
    },
    {
      "epoch": 7.426624737945493,
      "grad_norm": 0.09006837010383606,
      "learning_rate": 0.0007920468773768811,
      "loss": 0.5077,
      "num_input_tokens_seen": 9267584,
      "step": 14170
    },
    {
      "epoch": 7.429245283018868,
      "grad_norm": 0.11737701296806335,
      "learning_rate": 0.0007918612258114217,
      "loss": 0.4794,
      "num_input_tokens_seen": 9270784,
      "step": 14175
    },
    {
      "epoch": 7.431865828092243,
      "grad_norm": 0.06432697921991348,
      "learning_rate": 0.0007916755131919238,
      "loss": 0.4052,
      "num_input_tokens_seen": 9274048,
      "step": 14180
    },
    {
      "epoch": 7.434486373165618,
      "grad_norm": 0.0451674722135067,
      "learning_rate": 0.000791489739557236,
      "loss": 0.3966,
      "num_input_tokens_seen": 9277760,
      "step": 14185
    },
    {
      "epoch": 7.437106918238994,
      "grad_norm": 0.1152723878622055,
      "learning_rate": 0.0007913039049462203,
      "loss": 0.5036,
      "num_input_tokens_seen": 9281088,
      "step": 14190
    },
    {
      "epoch": 7.439727463312369,
      "grad_norm": 0.06868120282888412,
      "learning_rate": 0.0007911180093977511,
      "loss": 0.5072,
      "num_input_tokens_seen": 9283968,
      "step": 14195
    },
    {
      "epoch": 7.4423480083857445,
      "grad_norm": 0.09693927317857742,
      "learning_rate": 0.0007909320529507154,
      "loss": 0.5366,
      "num_input_tokens_seen": 9286816,
      "step": 14200
    },
    {
      "epoch": 7.44496855345912,
      "grad_norm": 0.08314864337444305,
      "learning_rate": 0.0007907460356440134,
      "loss": 0.5225,
      "num_input_tokens_seen": 9290272,
      "step": 14205
    },
    {
      "epoch": 7.447589098532495,
      "grad_norm": 0.09434410184621811,
      "learning_rate": 0.0007905599575165577,
      "loss": 0.5647,
      "num_input_tokens_seen": 9293568,
      "step": 14210
    },
    {
      "epoch": 7.45020964360587,
      "grad_norm": 0.25836071372032166,
      "learning_rate": 0.0007903738186072739,
      "loss": 0.3303,
      "num_input_tokens_seen": 9295968,
      "step": 14215
    },
    {
      "epoch": 7.452830188679245,
      "grad_norm": 0.06914345920085907,
      "learning_rate": 0.0007901876189550999,
      "loss": 0.3838,
      "num_input_tokens_seen": 9300128,
      "step": 14220
    },
    {
      "epoch": 7.45545073375262,
      "grad_norm": 0.17682768404483795,
      "learning_rate": 0.0007900013585989867,
      "loss": 0.4236,
      "num_input_tokens_seen": 9302816,
      "step": 14225
    },
    {
      "epoch": 7.4580712788259955,
      "grad_norm": 0.09804309904575348,
      "learning_rate": 0.0007898150375778979,
      "loss": 0.5376,
      "num_input_tokens_seen": 9305632,
      "step": 14230
    },
    {
      "epoch": 7.460691823899371,
      "grad_norm": 0.18724793195724487,
      "learning_rate": 0.0007896286559308095,
      "loss": 0.604,
      "num_input_tokens_seen": 9308224,
      "step": 14235
    },
    {
      "epoch": 7.463312368972747,
      "grad_norm": 0.09114224463701248,
      "learning_rate": 0.0007894422136967105,
      "loss": 0.419,
      "num_input_tokens_seen": 9311008,
      "step": 14240
    },
    {
      "epoch": 7.465932914046122,
      "grad_norm": 0.07368677854537964,
      "learning_rate": 0.0007892557109146026,
      "loss": 0.3864,
      "num_input_tokens_seen": 9314272,
      "step": 14245
    },
    {
      "epoch": 7.468553459119497,
      "grad_norm": 0.11821725219488144,
      "learning_rate": 0.0007890691476234999,
      "loss": 0.7026,
      "num_input_tokens_seen": 9316896,
      "step": 14250
    },
    {
      "epoch": 7.471174004192872,
      "grad_norm": 0.10476744920015335,
      "learning_rate": 0.0007888825238624294,
      "loss": 0.3304,
      "num_input_tokens_seen": 9320896,
      "step": 14255
    },
    {
      "epoch": 7.473794549266247,
      "grad_norm": 0.08775036036968231,
      "learning_rate": 0.0007886958396704307,
      "loss": 0.4799,
      "num_input_tokens_seen": 9324832,
      "step": 14260
    },
    {
      "epoch": 7.476415094339623,
      "grad_norm": 0.1323912888765335,
      "learning_rate": 0.0007885090950865559,
      "loss": 0.4194,
      "num_input_tokens_seen": 9328000,
      "step": 14265
    },
    {
      "epoch": 7.479035639412998,
      "grad_norm": 0.08551854640245438,
      "learning_rate": 0.0007883222901498701,
      "loss": 0.4375,
      "num_input_tokens_seen": 9330400,
      "step": 14270
    },
    {
      "epoch": 7.481656184486373,
      "grad_norm": 0.09460294991731644,
      "learning_rate": 0.0007881354248994503,
      "loss": 0.4384,
      "num_input_tokens_seen": 9332992,
      "step": 14275
    },
    {
      "epoch": 7.484276729559748,
      "grad_norm": 0.10730526596307755,
      "learning_rate": 0.0007879484993743869,
      "loss": 0.5317,
      "num_input_tokens_seen": 9335968,
      "step": 14280
    },
    {
      "epoch": 7.486897274633124,
      "grad_norm": 0.0894615575671196,
      "learning_rate": 0.0007877615136137827,
      "loss": 0.3473,
      "num_input_tokens_seen": 9339456,
      "step": 14285
    },
    {
      "epoch": 7.489517819706499,
      "grad_norm": 0.07189126312732697,
      "learning_rate": 0.0007875744676567527,
      "loss": 0.4449,
      "num_input_tokens_seen": 9343520,
      "step": 14290
    },
    {
      "epoch": 7.4921383647798745,
      "grad_norm": 0.12389589846134186,
      "learning_rate": 0.0007873873615424248,
      "loss": 0.5238,
      "num_input_tokens_seen": 9346816,
      "step": 14295
    },
    {
      "epoch": 7.49475890985325,
      "grad_norm": 0.11001594364643097,
      "learning_rate": 0.0007872001953099396,
      "loss": 0.401,
      "num_input_tokens_seen": 9349856,
      "step": 14300
    },
    {
      "epoch": 7.497379454926625,
      "grad_norm": 0.1119750514626503,
      "learning_rate": 0.0007870129689984501,
      "loss": 0.5313,
      "num_input_tokens_seen": 9353504,
      "step": 14305
    },
    {
      "epoch": 7.5,
      "grad_norm": 0.06644363701343536,
      "learning_rate": 0.000786825682647122,
      "loss": 0.4704,
      "num_input_tokens_seen": 9357504,
      "step": 14310
    },
    {
      "epoch": 7.502620545073375,
      "grad_norm": 0.1363753229379654,
      "learning_rate": 0.0007866383362951332,
      "loss": 0.5399,
      "num_input_tokens_seen": 9361504,
      "step": 14315
    },
    {
      "epoch": 7.50524109014675,
      "grad_norm": 0.0698917806148529,
      "learning_rate": 0.0007864509299816746,
      "loss": 0.3954,
      "num_input_tokens_seen": 9365760,
      "step": 14320
    },
    {
      "epoch": 7.5078616352201255,
      "grad_norm": 0.090675488114357,
      "learning_rate": 0.0007862634637459496,
      "loss": 0.5564,
      "num_input_tokens_seen": 9368384,
      "step": 14325
    },
    {
      "epoch": 7.510482180293501,
      "grad_norm": 0.16687564551830292,
      "learning_rate": 0.0007860759376271737,
      "loss": 0.5414,
      "num_input_tokens_seen": 9371360,
      "step": 14330
    },
    {
      "epoch": 7.513102725366876,
      "grad_norm": 0.11615649610757828,
      "learning_rate": 0.0007858883516645755,
      "loss": 0.5483,
      "num_input_tokens_seen": 9374624,
      "step": 14335
    },
    {
      "epoch": 7.515723270440252,
      "grad_norm": 0.07430867105722427,
      "learning_rate": 0.0007857007058973957,
      "loss": 0.4103,
      "num_input_tokens_seen": 9378048,
      "step": 14340
    },
    {
      "epoch": 7.518343815513627,
      "grad_norm": 0.06598015874624252,
      "learning_rate": 0.0007855130003648876,
      "loss": 0.4725,
      "num_input_tokens_seen": 9381120,
      "step": 14345
    },
    {
      "epoch": 7.520964360587002,
      "grad_norm": 0.09243401885032654,
      "learning_rate": 0.0007853252351063171,
      "loss": 0.3651,
      "num_input_tokens_seen": 9384736,
      "step": 14350
    },
    {
      "epoch": 7.523584905660377,
      "grad_norm": 0.05871430039405823,
      "learning_rate": 0.0007851374101609627,
      "loss": 0.3776,
      "num_input_tokens_seen": 9388192,
      "step": 14355
    },
    {
      "epoch": 7.526205450733753,
      "grad_norm": 0.10042812675237656,
      "learning_rate": 0.000784949525568115,
      "loss": 0.3351,
      "num_input_tokens_seen": 9391168,
      "step": 14360
    },
    {
      "epoch": 7.528825995807128,
      "grad_norm": 0.13358820974826813,
      "learning_rate": 0.0007847615813670776,
      "loss": 0.5418,
      "num_input_tokens_seen": 9394528,
      "step": 14365
    },
    {
      "epoch": 7.531446540880503,
      "grad_norm": 0.07564091682434082,
      "learning_rate": 0.000784573577597166,
      "loss": 0.4582,
      "num_input_tokens_seen": 9398784,
      "step": 14370
    },
    {
      "epoch": 7.534067085953878,
      "grad_norm": 0.12064102292060852,
      "learning_rate": 0.0007843855142977086,
      "loss": 0.5716,
      "num_input_tokens_seen": 9402176,
      "step": 14375
    },
    {
      "epoch": 7.536687631027254,
      "grad_norm": 0.1611863374710083,
      "learning_rate": 0.000784197391508046,
      "loss": 0.3709,
      "num_input_tokens_seen": 9405344,
      "step": 14380
    },
    {
      "epoch": 7.539308176100629,
      "grad_norm": 0.06909111887216568,
      "learning_rate": 0.0007840092092675313,
      "loss": 0.385,
      "num_input_tokens_seen": 9408384,
      "step": 14385
    },
    {
      "epoch": 7.5419287211740045,
      "grad_norm": 0.11749867349863052,
      "learning_rate": 0.0007838209676155302,
      "loss": 0.4449,
      "num_input_tokens_seen": 9410976,
      "step": 14390
    },
    {
      "epoch": 7.54454926624738,
      "grad_norm": 0.0755116268992424,
      "learning_rate": 0.0007836326665914209,
      "loss": 0.504,
      "num_input_tokens_seen": 9413632,
      "step": 14395
    },
    {
      "epoch": 7.547169811320755,
      "grad_norm": 0.10777075588703156,
      "learning_rate": 0.0007834443062345932,
      "loss": 0.5225,
      "num_input_tokens_seen": 9416640,
      "step": 14400
    },
    {
      "epoch": 7.54979035639413,
      "grad_norm": 0.07176609337329865,
      "learning_rate": 0.0007832558865844507,
      "loss": 0.5166,
      "num_input_tokens_seen": 9419584,
      "step": 14405
    },
    {
      "epoch": 7.552410901467505,
      "grad_norm": 0.11557399481534958,
      "learning_rate": 0.0007830674076804083,
      "loss": 0.4629,
      "num_input_tokens_seen": 9422624,
      "step": 14410
    },
    {
      "epoch": 7.55503144654088,
      "grad_norm": 0.10453425347805023,
      "learning_rate": 0.0007828788695618934,
      "loss": 0.3207,
      "num_input_tokens_seen": 9424832,
      "step": 14415
    },
    {
      "epoch": 7.5576519916142555,
      "grad_norm": 0.10891763120889664,
      "learning_rate": 0.0007826902722683462,
      "loss": 0.618,
      "num_input_tokens_seen": 9427360,
      "step": 14420
    },
    {
      "epoch": 7.560272536687631,
      "grad_norm": 0.1015767976641655,
      "learning_rate": 0.0007825016158392193,
      "loss": 0.521,
      "num_input_tokens_seen": 9430112,
      "step": 14425
    },
    {
      "epoch": 7.562893081761006,
      "grad_norm": 0.06767533719539642,
      "learning_rate": 0.0007823129003139773,
      "loss": 0.4597,
      "num_input_tokens_seen": 9434560,
      "step": 14430
    },
    {
      "epoch": 7.565513626834382,
      "grad_norm": 0.18021807074546814,
      "learning_rate": 0.0007821241257320972,
      "loss": 0.5019,
      "num_input_tokens_seen": 9437664,
      "step": 14435
    },
    {
      "epoch": 7.568134171907757,
      "grad_norm": 0.034931983798742294,
      "learning_rate": 0.0007819352921330689,
      "loss": 0.2771,
      "num_input_tokens_seen": 9441472,
      "step": 14440
    },
    {
      "epoch": 7.570754716981132,
      "grad_norm": 0.07279451936483383,
      "learning_rate": 0.0007817463995563938,
      "loss": 0.3361,
      "num_input_tokens_seen": 9444288,
      "step": 14445
    },
    {
      "epoch": 7.573375262054507,
      "grad_norm": 0.08675055205821991,
      "learning_rate": 0.0007815574480415864,
      "loss": 0.4386,
      "num_input_tokens_seen": 9448256,
      "step": 14450
    },
    {
      "epoch": 7.575995807127883,
      "grad_norm": 0.04928053915500641,
      "learning_rate": 0.0007813684376281729,
      "loss": 0.4307,
      "num_input_tokens_seen": 9452768,
      "step": 14455
    },
    {
      "epoch": 7.578616352201258,
      "grad_norm": 0.0702163502573967,
      "learning_rate": 0.0007811793683556922,
      "loss": 0.5759,
      "num_input_tokens_seen": 9456288,
      "step": 14460
    },
    {
      "epoch": 7.581236897274633,
      "grad_norm": 0.11386832594871521,
      "learning_rate": 0.0007809902402636957,
      "loss": 0.529,
      "num_input_tokens_seen": 9459104,
      "step": 14465
    },
    {
      "epoch": 7.583857442348008,
      "grad_norm": 0.09574136883020401,
      "learning_rate": 0.0007808010533917464,
      "loss": 0.4173,
      "num_input_tokens_seen": 9462688,
      "step": 14470
    },
    {
      "epoch": 7.586477987421384,
      "grad_norm": 0.0817151591181755,
      "learning_rate": 0.0007806118077794205,
      "loss": 0.4356,
      "num_input_tokens_seen": 9465440,
      "step": 14475
    },
    {
      "epoch": 7.589098532494759,
      "grad_norm": 0.14685553312301636,
      "learning_rate": 0.0007804225034663058,
      "loss": 0.4071,
      "num_input_tokens_seen": 9469184,
      "step": 14480
    },
    {
      "epoch": 7.5917190775681345,
      "grad_norm": 0.0620272159576416,
      "learning_rate": 0.0007802331404920024,
      "loss": 0.5688,
      "num_input_tokens_seen": 9472704,
      "step": 14485
    },
    {
      "epoch": 7.59433962264151,
      "grad_norm": 0.15278278291225433,
      "learning_rate": 0.0007800437188961232,
      "loss": 0.575,
      "num_input_tokens_seen": 9476224,
      "step": 14490
    },
    {
      "epoch": 7.596960167714885,
      "grad_norm": 0.09011927992105484,
      "learning_rate": 0.0007798542387182929,
      "loss": 0.549,
      "num_input_tokens_seen": 9479264,
      "step": 14495
    },
    {
      "epoch": 7.59958071278826,
      "grad_norm": 0.12027747184038162,
      "learning_rate": 0.0007796646999981488,
      "loss": 0.488,
      "num_input_tokens_seen": 9481824,
      "step": 14500
    },
    {
      "epoch": 7.602201257861635,
      "grad_norm": 0.09802457690238953,
      "learning_rate": 0.0007794751027753397,
      "loss": 0.3551,
      "num_input_tokens_seen": 9485376,
      "step": 14505
    },
    {
      "epoch": 7.60482180293501,
      "grad_norm": 0.08781447261571884,
      "learning_rate": 0.0007792854470895278,
      "loss": 0.393,
      "num_input_tokens_seen": 9488672,
      "step": 14510
    },
    {
      "epoch": 7.6074423480083855,
      "grad_norm": 0.07269615679979324,
      "learning_rate": 0.0007790957329803865,
      "loss": 0.5849,
      "num_input_tokens_seen": 9491776,
      "step": 14515
    },
    {
      "epoch": 7.610062893081761,
      "grad_norm": 0.11737888306379318,
      "learning_rate": 0.0007789059604876019,
      "loss": 0.4215,
      "num_input_tokens_seen": 9494624,
      "step": 14520
    },
    {
      "epoch": 7.612683438155136,
      "grad_norm": 0.08449235558509827,
      "learning_rate": 0.0007787161296508724,
      "loss": 0.563,
      "num_input_tokens_seen": 9497472,
      "step": 14525
    },
    {
      "epoch": 7.615303983228512,
      "grad_norm": 0.10823842883110046,
      "learning_rate": 0.0007785262405099083,
      "loss": 0.4834,
      "num_input_tokens_seen": 9500928,
      "step": 14530
    },
    {
      "epoch": 7.617924528301887,
      "grad_norm": 0.0655733123421669,
      "learning_rate": 0.0007783362931044322,
      "loss": 0.4236,
      "num_input_tokens_seen": 9504384,
      "step": 14535
    },
    {
      "epoch": 7.620545073375262,
      "grad_norm": 0.09501080960035324,
      "learning_rate": 0.0007781462874741793,
      "loss": 0.4459,
      "num_input_tokens_seen": 9506912,
      "step": 14540
    },
    {
      "epoch": 7.623165618448637,
      "grad_norm": 0.07630379498004913,
      "learning_rate": 0.000777956223658896,
      "loss": 0.356,
      "num_input_tokens_seen": 9509632,
      "step": 14545
    },
    {
      "epoch": 7.6257861635220126,
      "grad_norm": 0.11781475692987442,
      "learning_rate": 0.000777766101698342,
      "loss": 0.4726,
      "num_input_tokens_seen": 9513024,
      "step": 14550
    },
    {
      "epoch": 7.628406708595388,
      "grad_norm": 0.09296853840351105,
      "learning_rate": 0.0007775759216322882,
      "loss": 0.4442,
      "num_input_tokens_seen": 9515936,
      "step": 14555
    },
    {
      "epoch": 7.631027253668763,
      "grad_norm": 0.09445037692785263,
      "learning_rate": 0.0007773856835005187,
      "loss": 0.4445,
      "num_input_tokens_seen": 9519744,
      "step": 14560
    },
    {
      "epoch": 7.633647798742138,
      "grad_norm": 0.13047724962234497,
      "learning_rate": 0.0007771953873428285,
      "loss": 0.566,
      "num_input_tokens_seen": 9522464,
      "step": 14565
    },
    {
      "epoch": 7.636268343815514,
      "grad_norm": 0.12950767576694489,
      "learning_rate": 0.0007770050331990259,
      "loss": 0.5254,
      "num_input_tokens_seen": 9527200,
      "step": 14570
    },
    {
      "epoch": 7.638888888888889,
      "grad_norm": 0.11390736699104309,
      "learning_rate": 0.0007768146211089304,
      "loss": 0.6265,
      "num_input_tokens_seen": 9530336,
      "step": 14575
    },
    {
      "epoch": 7.6415094339622645,
      "grad_norm": 0.08812174201011658,
      "learning_rate": 0.0007766241511123744,
      "loss": 0.4411,
      "num_input_tokens_seen": 9533728,
      "step": 14580
    },
    {
      "epoch": 7.64412997903564,
      "grad_norm": 0.11622107774019241,
      "learning_rate": 0.0007764336232492018,
      "loss": 0.4071,
      "num_input_tokens_seen": 9536576,
      "step": 14585
    },
    {
      "epoch": 7.646750524109015,
      "grad_norm": 0.11796163767576218,
      "learning_rate": 0.0007762430375592689,
      "loss": 0.3759,
      "num_input_tokens_seen": 9540160,
      "step": 14590
    },
    {
      "epoch": 7.64937106918239,
      "grad_norm": 0.09072479605674744,
      "learning_rate": 0.0007760523940824441,
      "loss": 0.4706,
      "num_input_tokens_seen": 9542976,
      "step": 14595
    },
    {
      "epoch": 7.651991614255765,
      "grad_norm": 0.06820355355739594,
      "learning_rate": 0.0007758616928586077,
      "loss": 0.4107,
      "num_input_tokens_seen": 9546240,
      "step": 14600
    },
    {
      "epoch": 7.65461215932914,
      "grad_norm": 0.10857771337032318,
      "learning_rate": 0.0007756709339276527,
      "loss": 0.501,
      "num_input_tokens_seen": 9549024,
      "step": 14605
    },
    {
      "epoch": 7.6572327044025155,
      "grad_norm": 0.1245957538485527,
      "learning_rate": 0.0007754801173294831,
      "loss": 0.5787,
      "num_input_tokens_seen": 9551328,
      "step": 14610
    },
    {
      "epoch": 7.659853249475891,
      "grad_norm": 0.08834853023290634,
      "learning_rate": 0.0007752892431040158,
      "loss": 0.4213,
      "num_input_tokens_seen": 9554880,
      "step": 14615
    },
    {
      "epoch": 7.662473794549266,
      "grad_norm": 0.17606045305728912,
      "learning_rate": 0.0007750983112911796,
      "loss": 0.4714,
      "num_input_tokens_seen": 9557536,
      "step": 14620
    },
    {
      "epoch": 7.665094339622642,
      "grad_norm": 0.08182590454816818,
      "learning_rate": 0.0007749073219309151,
      "loss": 0.3675,
      "num_input_tokens_seen": 9560544,
      "step": 14625
    },
    {
      "epoch": 7.667714884696017,
      "grad_norm": 0.10439802706241608,
      "learning_rate": 0.0007747162750631751,
      "loss": 0.6342,
      "num_input_tokens_seen": 9563392,
      "step": 14630
    },
    {
      "epoch": 7.670335429769392,
      "grad_norm": 0.11298961192369461,
      "learning_rate": 0.0007745251707279246,
      "loss": 0.4049,
      "num_input_tokens_seen": 9565984,
      "step": 14635
    },
    {
      "epoch": 7.672955974842767,
      "grad_norm": 0.06904511153697968,
      "learning_rate": 0.0007743340089651403,
      "loss": 0.3975,
      "num_input_tokens_seen": 9569504,
      "step": 14640
    },
    {
      "epoch": 7.6755765199161425,
      "grad_norm": 0.08965693414211273,
      "learning_rate": 0.0007741427898148111,
      "loss": 0.6151,
      "num_input_tokens_seen": 9572832,
      "step": 14645
    },
    {
      "epoch": 7.678197064989518,
      "grad_norm": 0.10301307588815689,
      "learning_rate": 0.0007739515133169379,
      "loss": 0.5313,
      "num_input_tokens_seen": 9575488,
      "step": 14650
    },
    {
      "epoch": 7.680817610062893,
      "grad_norm": 0.10622160881757736,
      "learning_rate": 0.0007737601795115334,
      "loss": 0.3656,
      "num_input_tokens_seen": 9578304,
      "step": 14655
    },
    {
      "epoch": 7.683438155136268,
      "grad_norm": 0.07540520280599594,
      "learning_rate": 0.0007735687884386226,
      "loss": 0.388,
      "num_input_tokens_seen": 9581440,
      "step": 14660
    },
    {
      "epoch": 7.686058700209644,
      "grad_norm": 0.06495144218206406,
      "learning_rate": 0.0007733773401382424,
      "loss": 0.4959,
      "num_input_tokens_seen": 9584032,
      "step": 14665
    },
    {
      "epoch": 7.688679245283019,
      "grad_norm": 0.1380492001771927,
      "learning_rate": 0.0007731858346504414,
      "loss": 0.4384,
      "num_input_tokens_seen": 9588384,
      "step": 14670
    },
    {
      "epoch": 7.691299790356394,
      "grad_norm": 0.0538601353764534,
      "learning_rate": 0.0007729942720152805,
      "loss": 0.4531,
      "num_input_tokens_seen": 9593120,
      "step": 14675
    },
    {
      "epoch": 7.69392033542977,
      "grad_norm": 0.0661371499300003,
      "learning_rate": 0.0007728026522728324,
      "loss": 0.479,
      "num_input_tokens_seen": 9596480,
      "step": 14680
    },
    {
      "epoch": 7.696540880503145,
      "grad_norm": 0.09123410284519196,
      "learning_rate": 0.0007726109754631817,
      "loss": 0.4506,
      "num_input_tokens_seen": 9599424,
      "step": 14685
    },
    {
      "epoch": 7.69916142557652,
      "grad_norm": 0.16114817559719086,
      "learning_rate": 0.000772419241626425,
      "loss": 0.3884,
      "num_input_tokens_seen": 9603648,
      "step": 14690
    },
    {
      "epoch": 7.701781970649895,
      "grad_norm": 0.0937848687171936,
      "learning_rate": 0.000772227450802671,
      "loss": 0.3881,
      "num_input_tokens_seen": 9606208,
      "step": 14695
    },
    {
      "epoch": 7.70440251572327,
      "grad_norm": 0.09505428373813629,
      "learning_rate": 0.0007720356030320399,
      "loss": 0.4227,
      "num_input_tokens_seen": 9610176,
      "step": 14700
    },
    {
      "epoch": 7.7070230607966455,
      "grad_norm": 0.10508950054645538,
      "learning_rate": 0.0007718436983546642,
      "loss": 0.5247,
      "num_input_tokens_seen": 9613888,
      "step": 14705
    },
    {
      "epoch": 7.709643605870021,
      "grad_norm": 0.0897395983338356,
      "learning_rate": 0.0007716517368106882,
      "loss": 0.3488,
      "num_input_tokens_seen": 9617792,
      "step": 14710
    },
    {
      "epoch": 7.712264150943396,
      "grad_norm": 0.09889720380306244,
      "learning_rate": 0.000771459718440268,
      "loss": 0.4129,
      "num_input_tokens_seen": 9620832,
      "step": 14715
    },
    {
      "epoch": 7.714884696016772,
      "grad_norm": 0.0836905762553215,
      "learning_rate": 0.0007712676432835717,
      "loss": 0.4997,
      "num_input_tokens_seen": 9623744,
      "step": 14720
    },
    {
      "epoch": 7.717505241090147,
      "grad_norm": 0.07624398171901703,
      "learning_rate": 0.0007710755113807794,
      "loss": 0.5482,
      "num_input_tokens_seen": 9627136,
      "step": 14725
    },
    {
      "epoch": 7.720125786163522,
      "grad_norm": 0.27939119935035706,
      "learning_rate": 0.0007708833227720824,
      "loss": 0.5704,
      "num_input_tokens_seen": 9630592,
      "step": 14730
    },
    {
      "epoch": 7.722746331236897,
      "grad_norm": 0.13696303963661194,
      "learning_rate": 0.0007706910774976848,
      "loss": 0.4903,
      "num_input_tokens_seen": 9634240,
      "step": 14735
    },
    {
      "epoch": 7.7253668763102725,
      "grad_norm": 0.10680186003446579,
      "learning_rate": 0.0007704987755978021,
      "loss": 0.626,
      "num_input_tokens_seen": 9637120,
      "step": 14740
    },
    {
      "epoch": 7.727987421383648,
      "grad_norm": 0.13014870882034302,
      "learning_rate": 0.0007703064171126615,
      "loss": 0.3883,
      "num_input_tokens_seen": 9639808,
      "step": 14745
    },
    {
      "epoch": 7.730607966457023,
      "grad_norm": 0.06076899543404579,
      "learning_rate": 0.0007701140020825022,
      "loss": 0.6151,
      "num_input_tokens_seen": 9644384,
      "step": 14750
    },
    {
      "epoch": 7.733228511530398,
      "grad_norm": 0.04657340794801712,
      "learning_rate": 0.0007699215305475753,
      "loss": 0.4519,
      "num_input_tokens_seen": 9648288,
      "step": 14755
    },
    {
      "epoch": 7.735849056603773,
      "grad_norm": 0.06380866467952728,
      "learning_rate": 0.0007697290025481436,
      "loss": 0.4798,
      "num_input_tokens_seen": 9652032,
      "step": 14760
    },
    {
      "epoch": 7.738469601677149,
      "grad_norm": 0.07846777141094208,
      "learning_rate": 0.0007695364181244819,
      "loss": 0.5016,
      "num_input_tokens_seen": 9655296,
      "step": 14765
    },
    {
      "epoch": 7.741090146750524,
      "grad_norm": 0.10502392798662186,
      "learning_rate": 0.0007693437773168764,
      "loss": 0.4478,
      "num_input_tokens_seen": 9657856,
      "step": 14770
    },
    {
      "epoch": 7.7437106918239,
      "grad_norm": 0.09976302087306976,
      "learning_rate": 0.0007691510801656256,
      "loss": 0.3979,
      "num_input_tokens_seen": 9660576,
      "step": 14775
    },
    {
      "epoch": 7.746331236897275,
      "grad_norm": 0.11902181804180145,
      "learning_rate": 0.0007689583267110395,
      "loss": 0.616,
      "num_input_tokens_seen": 9663360,
      "step": 14780
    },
    {
      "epoch": 7.74895178197065,
      "grad_norm": 0.07869169116020203,
      "learning_rate": 0.0007687655169934398,
      "loss": 0.4178,
      "num_input_tokens_seen": 9667200,
      "step": 14785
    },
    {
      "epoch": 7.751572327044025,
      "grad_norm": 0.06154650077223778,
      "learning_rate": 0.0007685726510531603,
      "loss": 0.5251,
      "num_input_tokens_seen": 9671136,
      "step": 14790
    },
    {
      "epoch": 7.7541928721174,
      "grad_norm": 0.13731177151203156,
      "learning_rate": 0.0007683797289305463,
      "loss": 0.5155,
      "num_input_tokens_seen": 9674208,
      "step": 14795
    },
    {
      "epoch": 7.756813417190775,
      "grad_norm": 0.12610188126564026,
      "learning_rate": 0.0007681867506659548,
      "loss": 0.4635,
      "num_input_tokens_seen": 9677280,
      "step": 14800
    },
    {
      "epoch": 7.759433962264151,
      "grad_norm": 0.10944252461194992,
      "learning_rate": 0.0007679937162997546,
      "loss": 0.4872,
      "num_input_tokens_seen": 9680320,
      "step": 14805
    },
    {
      "epoch": 7.762054507337526,
      "grad_norm": 0.09871412813663483,
      "learning_rate": 0.0007678006258723264,
      "loss": 0.6206,
      "num_input_tokens_seen": 9682848,
      "step": 14810
    },
    {
      "epoch": 7.764675052410902,
      "grad_norm": 0.11399518698453903,
      "learning_rate": 0.0007676074794240626,
      "loss": 0.4953,
      "num_input_tokens_seen": 9686112,
      "step": 14815
    },
    {
      "epoch": 7.767295597484277,
      "grad_norm": 0.09844138473272324,
      "learning_rate": 0.000767414276995367,
      "loss": 0.5893,
      "num_input_tokens_seen": 9689088,
      "step": 14820
    },
    {
      "epoch": 7.769916142557652,
      "grad_norm": 0.44065579771995544,
      "learning_rate": 0.0007672210186266555,
      "loss": 0.5397,
      "num_input_tokens_seen": 9693280,
      "step": 14825
    },
    {
      "epoch": 7.772536687631027,
      "grad_norm": 0.09957525879144669,
      "learning_rate": 0.0007670277043583556,
      "loss": 0.4321,
      "num_input_tokens_seen": 9695872,
      "step": 14830
    },
    {
      "epoch": 7.7751572327044025,
      "grad_norm": 0.2036266326904297,
      "learning_rate": 0.0007668343342309063,
      "loss": 0.5728,
      "num_input_tokens_seen": 9698272,
      "step": 14835
    },
    {
      "epoch": 7.777777777777778,
      "grad_norm": 0.16642984747886658,
      "learning_rate": 0.0007666409082847586,
      "loss": 0.4769,
      "num_input_tokens_seen": 9701568,
      "step": 14840
    },
    {
      "epoch": 7.780398322851153,
      "grad_norm": 0.07772767543792725,
      "learning_rate": 0.0007664474265603747,
      "loss": 0.4464,
      "num_input_tokens_seen": 9704832,
      "step": 14845
    },
    {
      "epoch": 7.783018867924528,
      "grad_norm": 0.11302616447210312,
      "learning_rate": 0.0007662538890982291,
      "loss": 0.6238,
      "num_input_tokens_seen": 9707616,
      "step": 14850
    },
    {
      "epoch": 7.785639412997903,
      "grad_norm": 0.09059664607048035,
      "learning_rate": 0.0007660602959388075,
      "loss": 0.4742,
      "num_input_tokens_seen": 9710560,
      "step": 14855
    },
    {
      "epoch": 7.788259958071279,
      "grad_norm": 0.08866267651319504,
      "learning_rate": 0.0007658666471226073,
      "loss": 0.5651,
      "num_input_tokens_seen": 9713984,
      "step": 14860
    },
    {
      "epoch": 7.790880503144654,
      "grad_norm": 0.0946679413318634,
      "learning_rate": 0.0007656729426901377,
      "loss": 0.3343,
      "num_input_tokens_seen": 9716832,
      "step": 14865
    },
    {
      "epoch": 7.79350104821803,
      "grad_norm": 0.07883121818304062,
      "learning_rate": 0.0007654791826819194,
      "loss": 0.4824,
      "num_input_tokens_seen": 9720544,
      "step": 14870
    },
    {
      "epoch": 7.796121593291405,
      "grad_norm": 0.08555430918931961,
      "learning_rate": 0.0007652853671384847,
      "loss": 0.4898,
      "num_input_tokens_seen": 9723392,
      "step": 14875
    },
    {
      "epoch": 7.79874213836478,
      "grad_norm": 0.10093396157026291,
      "learning_rate": 0.0007650914961003781,
      "loss": 0.4292,
      "num_input_tokens_seen": 9726464,
      "step": 14880
    },
    {
      "epoch": 7.801362683438155,
      "grad_norm": 0.08011844009160995,
      "learning_rate": 0.0007648975696081546,
      "loss": 0.396,
      "num_input_tokens_seen": 9729952,
      "step": 14885
    },
    {
      "epoch": 7.80398322851153,
      "grad_norm": 0.1022857278585434,
      "learning_rate": 0.0007647035877023816,
      "loss": 0.576,
      "num_input_tokens_seen": 9732832,
      "step": 14890
    },
    {
      "epoch": 7.806603773584905,
      "grad_norm": 0.08744993805885315,
      "learning_rate": 0.0007645095504236381,
      "loss": 0.5323,
      "num_input_tokens_seen": 9736736,
      "step": 14895
    },
    {
      "epoch": 7.809224318658281,
      "grad_norm": 0.12102518230676651,
      "learning_rate": 0.0007643154578125142,
      "loss": 0.4396,
      "num_input_tokens_seen": 9739968,
      "step": 14900
    },
    {
      "epoch": 7.811844863731656,
      "grad_norm": 0.09979508072137833,
      "learning_rate": 0.0007641213099096121,
      "loss": 0.3591,
      "num_input_tokens_seen": 9742528,
      "step": 14905
    },
    {
      "epoch": 7.814465408805032,
      "grad_norm": 0.07317851483821869,
      "learning_rate": 0.0007639271067555452,
      "loss": 0.4488,
      "num_input_tokens_seen": 9746752,
      "step": 14910
    },
    {
      "epoch": 7.817085953878407,
      "grad_norm": 0.12157746404409409,
      "learning_rate": 0.0007637328483909385,
      "loss": 0.5116,
      "num_input_tokens_seen": 9750176,
      "step": 14915
    },
    {
      "epoch": 7.819706498951782,
      "grad_norm": 0.0716237723827362,
      "learning_rate": 0.000763538534856429,
      "loss": 0.5136,
      "num_input_tokens_seen": 9752768,
      "step": 14920
    },
    {
      "epoch": 7.822327044025157,
      "grad_norm": 0.09227289259433746,
      "learning_rate": 0.0007633441661926643,
      "loss": 0.4449,
      "num_input_tokens_seen": 9756352,
      "step": 14925
    },
    {
      "epoch": 7.8249475890985325,
      "grad_norm": 0.08873522281646729,
      "learning_rate": 0.0007631497424403046,
      "loss": 0.4219,
      "num_input_tokens_seen": 9759264,
      "step": 14930
    },
    {
      "epoch": 7.827568134171908,
      "grad_norm": 0.14557677507400513,
      "learning_rate": 0.000762955263640021,
      "loss": 0.5086,
      "num_input_tokens_seen": 9766976,
      "step": 14935
    },
    {
      "epoch": 7.830188679245283,
      "grad_norm": 0.1192454919219017,
      "learning_rate": 0.0007627607298324961,
      "loss": 0.6308,
      "num_input_tokens_seen": 9769984,
      "step": 14940
    },
    {
      "epoch": 7.832809224318658,
      "grad_norm": 0.06875904649496078,
      "learning_rate": 0.0007625661410584244,
      "loss": 0.5782,
      "num_input_tokens_seen": 9772864,
      "step": 14945
    },
    {
      "epoch": 7.835429769392033,
      "grad_norm": 0.10625100880861282,
      "learning_rate": 0.0007623714973585113,
      "loss": 0.3804,
      "num_input_tokens_seen": 9775264,
      "step": 14950
    },
    {
      "epoch": 7.838050314465409,
      "grad_norm": 0.06352083384990692,
      "learning_rate": 0.0007621767987734743,
      "loss": 0.3868,
      "num_input_tokens_seen": 9779584,
      "step": 14955
    },
    {
      "epoch": 7.840670859538784,
      "grad_norm": 0.08109954744577408,
      "learning_rate": 0.000761982045344042,
      "loss": 0.4186,
      "num_input_tokens_seen": 9782784,
      "step": 14960
    },
    {
      "epoch": 7.84329140461216,
      "grad_norm": 0.11626379936933517,
      "learning_rate": 0.0007617872371109549,
      "loss": 0.4433,
      "num_input_tokens_seen": 9784960,
      "step": 14965
    },
    {
      "epoch": 7.845911949685535,
      "grad_norm": 0.12425551563501358,
      "learning_rate": 0.0007615923741149643,
      "loss": 0.5164,
      "num_input_tokens_seen": 9787904,
      "step": 14970
    },
    {
      "epoch": 7.84853249475891,
      "grad_norm": 0.1498573124408722,
      "learning_rate": 0.0007613974563968333,
      "loss": 0.8178,
      "num_input_tokens_seen": 9790752,
      "step": 14975
    },
    {
      "epoch": 7.851153039832285,
      "grad_norm": 0.07768173515796661,
      "learning_rate": 0.0007612024839973368,
      "loss": 0.494,
      "num_input_tokens_seen": 9794624,
      "step": 14980
    },
    {
      "epoch": 7.85377358490566,
      "grad_norm": 0.07626529037952423,
      "learning_rate": 0.0007610074569572605,
      "loss": 0.4324,
      "num_input_tokens_seen": 9797920,
      "step": 14985
    },
    {
      "epoch": 7.856394129979035,
      "grad_norm": 0.09866565465927124,
      "learning_rate": 0.0007608123753174019,
      "loss": 0.6146,
      "num_input_tokens_seen": 9800896,
      "step": 14990
    },
    {
      "epoch": 7.859014675052411,
      "grad_norm": 0.11107980459928513,
      "learning_rate": 0.00076061723911857,
      "loss": 0.3097,
      "num_input_tokens_seen": 9803872,
      "step": 14995
    },
    {
      "epoch": 7.861635220125786,
      "grad_norm": 0.09315745532512665,
      "learning_rate": 0.0007604220484015849,
      "loss": 0.4793,
      "num_input_tokens_seen": 9807136,
      "step": 15000
    },
    {
      "epoch": 7.864255765199162,
      "grad_norm": 0.08229340612888336,
      "learning_rate": 0.0007602268032072784,
      "loss": 0.4929,
      "num_input_tokens_seen": 9810880,
      "step": 15005
    },
    {
      "epoch": 7.866876310272537,
      "grad_norm": 0.0824420303106308,
      "learning_rate": 0.0007600315035764933,
      "loss": 0.3363,
      "num_input_tokens_seen": 9814752,
      "step": 15010
    },
    {
      "epoch": 7.869496855345912,
      "grad_norm": 0.10079583525657654,
      "learning_rate": 0.0007598361495500844,
      "loss": 0.514,
      "num_input_tokens_seen": 9818592,
      "step": 15015
    },
    {
      "epoch": 7.872117400419287,
      "grad_norm": 0.07076210528612137,
      "learning_rate": 0.0007596407411689173,
      "loss": 0.5667,
      "num_input_tokens_seen": 9821152,
      "step": 15020
    },
    {
      "epoch": 7.8747379454926625,
      "grad_norm": 0.06296742707490921,
      "learning_rate": 0.0007594452784738695,
      "loss": 0.6106,
      "num_input_tokens_seen": 9824896,
      "step": 15025
    },
    {
      "epoch": 7.877358490566038,
      "grad_norm": 0.09460342675447464,
      "learning_rate": 0.000759249761505829,
      "loss": 0.453,
      "num_input_tokens_seen": 9828000,
      "step": 15030
    },
    {
      "epoch": 7.879979035639413,
      "grad_norm": 0.14394810795783997,
      "learning_rate": 0.0007590541903056963,
      "loss": 0.5509,
      "num_input_tokens_seen": 9830496,
      "step": 15035
    },
    {
      "epoch": 7.882599580712788,
      "grad_norm": 0.07281460613012314,
      "learning_rate": 0.0007588585649143825,
      "loss": 0.4821,
      "num_input_tokens_seen": 9833856,
      "step": 15040
    },
    {
      "epoch": 7.885220125786163,
      "grad_norm": 0.2101248949766159,
      "learning_rate": 0.0007586628853728099,
      "loss": 0.5705,
      "num_input_tokens_seen": 9836544,
      "step": 15045
    },
    {
      "epoch": 7.887840670859539,
      "grad_norm": 0.10172644257545471,
      "learning_rate": 0.0007584671517219128,
      "loss": 0.4862,
      "num_input_tokens_seen": 9839264,
      "step": 15050
    },
    {
      "epoch": 7.890461215932914,
      "grad_norm": 0.05756735801696777,
      "learning_rate": 0.0007582713640026364,
      "loss": 0.4594,
      "num_input_tokens_seen": 9845216,
      "step": 15055
    },
    {
      "epoch": 7.8930817610062896,
      "grad_norm": 0.07157064229249954,
      "learning_rate": 0.000758075522255937,
      "loss": 0.6554,
      "num_input_tokens_seen": 9848256,
      "step": 15060
    },
    {
      "epoch": 7.895702306079665,
      "grad_norm": 0.06177525222301483,
      "learning_rate": 0.0007578796265227828,
      "loss": 0.4281,
      "num_input_tokens_seen": 9851008,
      "step": 15065
    },
    {
      "epoch": 7.89832285115304,
      "grad_norm": 0.11217357218265533,
      "learning_rate": 0.0007576836768441525,
      "loss": 0.4916,
      "num_input_tokens_seen": 9853920,
      "step": 15070
    },
    {
      "epoch": 7.900943396226415,
      "grad_norm": 0.09115108847618103,
      "learning_rate": 0.0007574876732610369,
      "loss": 0.4831,
      "num_input_tokens_seen": 9856736,
      "step": 15075
    },
    {
      "epoch": 7.90356394129979,
      "grad_norm": 0.1465369164943695,
      "learning_rate": 0.0007572916158144379,
      "loss": 0.4029,
      "num_input_tokens_seen": 9860896,
      "step": 15080
    },
    {
      "epoch": 7.906184486373165,
      "grad_norm": 0.07380615174770355,
      "learning_rate": 0.0007570955045453679,
      "loss": 0.4576,
      "num_input_tokens_seen": 9867296,
      "step": 15085
    },
    {
      "epoch": 7.908805031446541,
      "grad_norm": 0.10114415735006332,
      "learning_rate": 0.0007568993394948516,
      "loss": 0.6277,
      "num_input_tokens_seen": 9870816,
      "step": 15090
    },
    {
      "epoch": 7.911425576519916,
      "grad_norm": 0.0825386792421341,
      "learning_rate": 0.0007567031207039243,
      "loss": 0.4902,
      "num_input_tokens_seen": 9873792,
      "step": 15095
    },
    {
      "epoch": 7.914046121593291,
      "grad_norm": 0.07336331903934479,
      "learning_rate": 0.0007565068482136328,
      "loss": 0.4159,
      "num_input_tokens_seen": 9876544,
      "step": 15100
    },
    {
      "epoch": 7.916666666666667,
      "grad_norm": 0.08443661034107208,
      "learning_rate": 0.000756310522065035,
      "loss": 0.4257,
      "num_input_tokens_seen": 9880032,
      "step": 15105
    },
    {
      "epoch": 7.919287211740042,
      "grad_norm": 0.13032320141792297,
      "learning_rate": 0.0007561141422992002,
      "loss": 0.4673,
      "num_input_tokens_seen": 9883296,
      "step": 15110
    },
    {
      "epoch": 7.921907756813417,
      "grad_norm": 0.08674699813127518,
      "learning_rate": 0.0007559177089572086,
      "loss": 0.3952,
      "num_input_tokens_seen": 9885824,
      "step": 15115
    },
    {
      "epoch": 7.9245283018867925,
      "grad_norm": 0.10466262698173523,
      "learning_rate": 0.0007557212220801521,
      "loss": 0.5199,
      "num_input_tokens_seen": 9888896,
      "step": 15120
    },
    {
      "epoch": 7.927148846960168,
      "grad_norm": 0.09993401169776917,
      "learning_rate": 0.0007555246817091332,
      "loss": 0.4188,
      "num_input_tokens_seen": 9891552,
      "step": 15125
    },
    {
      "epoch": 7.929769392033543,
      "grad_norm": 0.22741273045539856,
      "learning_rate": 0.0007553280878852663,
      "loss": 0.4686,
      "num_input_tokens_seen": 9894400,
      "step": 15130
    },
    {
      "epoch": 7.932389937106918,
      "grad_norm": 0.06507021933794022,
      "learning_rate": 0.0007551314406496762,
      "loss": 0.4885,
      "num_input_tokens_seen": 9897728,
      "step": 15135
    },
    {
      "epoch": 7.935010482180293,
      "grad_norm": 0.0769532099366188,
      "learning_rate": 0.0007549347400434994,
      "loss": 0.4134,
      "num_input_tokens_seen": 9901248,
      "step": 15140
    },
    {
      "epoch": 7.937631027253669,
      "grad_norm": 0.10137762874364853,
      "learning_rate": 0.0007547379861078835,
      "loss": 0.7574,
      "num_input_tokens_seen": 9904384,
      "step": 15145
    },
    {
      "epoch": 7.940251572327044,
      "grad_norm": 0.10870963335037231,
      "learning_rate": 0.0007545411788839871,
      "loss": 0.4134,
      "num_input_tokens_seen": 9907872,
      "step": 15150
    },
    {
      "epoch": 7.9428721174004195,
      "grad_norm": 0.0626731738448143,
      "learning_rate": 0.0007543443184129799,
      "loss": 0.3186,
      "num_input_tokens_seen": 9911040,
      "step": 15155
    },
    {
      "epoch": 7.945492662473795,
      "grad_norm": 0.09192226827144623,
      "learning_rate": 0.000754147404736043,
      "loss": 0.442,
      "num_input_tokens_seen": 9914208,
      "step": 15160
    },
    {
      "epoch": 7.94811320754717,
      "grad_norm": 0.09541746228933334,
      "learning_rate": 0.0007539504378943686,
      "loss": 0.5472,
      "num_input_tokens_seen": 9917856,
      "step": 15165
    },
    {
      "epoch": 7.950733752620545,
      "grad_norm": 0.07928640395402908,
      "learning_rate": 0.0007537534179291599,
      "loss": 0.491,
      "num_input_tokens_seen": 9921280,
      "step": 15170
    },
    {
      "epoch": 7.95335429769392,
      "grad_norm": 0.0831553190946579,
      "learning_rate": 0.000753556344881631,
      "loss": 0.4314,
      "num_input_tokens_seen": 9925376,
      "step": 15175
    },
    {
      "epoch": 7.955974842767295,
      "grad_norm": 0.06705882400274277,
      "learning_rate": 0.0007533592187930076,
      "loss": 0.5063,
      "num_input_tokens_seen": 9928256,
      "step": 15180
    },
    {
      "epoch": 7.9585953878406706,
      "grad_norm": 0.1442478448152542,
      "learning_rate": 0.000753162039704526,
      "loss": 0.5416,
      "num_input_tokens_seen": 9931232,
      "step": 15185
    },
    {
      "epoch": 7.961215932914046,
      "grad_norm": 0.10757019370794296,
      "learning_rate": 0.000752964807657434,
      "loss": 0.4264,
      "num_input_tokens_seen": 9934368,
      "step": 15190
    },
    {
      "epoch": 7.963836477987421,
      "grad_norm": 0.08179627358913422,
      "learning_rate": 0.0007527675226929902,
      "loss": 0.4042,
      "num_input_tokens_seen": 9938432,
      "step": 15195
    },
    {
      "epoch": 7.966457023060797,
      "grad_norm": 0.16558422148227692,
      "learning_rate": 0.0007525701848524643,
      "loss": 0.3125,
      "num_input_tokens_seen": 9941024,
      "step": 15200
    },
    {
      "epoch": 7.969077568134172,
      "grad_norm": 0.09381593763828278,
      "learning_rate": 0.0007523727941771372,
      "loss": 0.4641,
      "num_input_tokens_seen": 9944480,
      "step": 15205
    },
    {
      "epoch": 7.971698113207547,
      "grad_norm": 0.10991444438695908,
      "learning_rate": 0.0007521753507083009,
      "loss": 0.3961,
      "num_input_tokens_seen": 9948192,
      "step": 15210
    },
    {
      "epoch": 7.9743186582809225,
      "grad_norm": 0.1200457513332367,
      "learning_rate": 0.0007519778544872581,
      "loss": 0.5394,
      "num_input_tokens_seen": 9951168,
      "step": 15215
    },
    {
      "epoch": 7.976939203354298,
      "grad_norm": 0.09214818477630615,
      "learning_rate": 0.000751780305555323,
      "loss": 0.5396,
      "num_input_tokens_seen": 9955136,
      "step": 15220
    },
    {
      "epoch": 7.979559748427673,
      "grad_norm": 0.09015145897865295,
      "learning_rate": 0.0007515827039538202,
      "loss": 0.4672,
      "num_input_tokens_seen": 9958464,
      "step": 15225
    },
    {
      "epoch": 7.982180293501048,
      "grad_norm": 0.07291281968355179,
      "learning_rate": 0.0007513850497240861,
      "loss": 0.5146,
      "num_input_tokens_seen": 9961312,
      "step": 15230
    },
    {
      "epoch": 7.984800838574423,
      "grad_norm": 0.07264754921197891,
      "learning_rate": 0.0007511873429074676,
      "loss": 0.4515,
      "num_input_tokens_seen": 9965280,
      "step": 15235
    },
    {
      "epoch": 7.987421383647799,
      "grad_norm": 0.11068638414144516,
      "learning_rate": 0.0007509895835453224,
      "loss": 0.62,
      "num_input_tokens_seen": 9969504,
      "step": 15240
    },
    {
      "epoch": 7.990041928721174,
      "grad_norm": 0.10543472319841385,
      "learning_rate": 0.0007507917716790201,
      "loss": 0.3704,
      "num_input_tokens_seen": 9972960,
      "step": 15245
    },
    {
      "epoch": 7.9926624737945495,
      "grad_norm": 0.1078997552394867,
      "learning_rate": 0.0007505939073499401,
      "loss": 0.5385,
      "num_input_tokens_seen": 9975712,
      "step": 15250
    },
    {
      "epoch": 7.995283018867925,
      "grad_norm": 0.07119069248437881,
      "learning_rate": 0.0007503959905994737,
      "loss": 0.5018,
      "num_input_tokens_seen": 9978752,
      "step": 15255
    },
    {
      "epoch": 7.9979035639413,
      "grad_norm": 0.07470784336328506,
      "learning_rate": 0.0007501980214690227,
      "loss": 0.6306,
      "num_input_tokens_seen": 9981472,
      "step": 15260
    },
    {
      "epoch": 8.0,
      "eval_loss": 0.4495212733745575,
      "eval_runtime": 13.3246,
      "eval_samples_per_second": 63.642,
      "eval_steps_per_second": 15.91,
      "num_input_tokens_seen": 9983720,
      "step": 15264
    },
    {
      "epoch": 8.000524109014675,
      "grad_norm": 0.10568644106388092,
      "learning_rate": 0.00075,
      "loss": 0.3762,
      "num_input_tokens_seen": 9984424,
      "step": 15265
    },
    {
      "epoch": 8.00314465408805,
      "grad_norm": 0.11889291554689407,
      "learning_rate": 0.0007498019262338295,
      "loss": 0.4761,
      "num_input_tokens_seen": 9987528,
      "step": 15270
    },
    {
      "epoch": 8.005765199161425,
      "grad_norm": 0.06942158937454224,
      "learning_rate": 0.0007496038002119459,
      "loss": 0.4383,
      "num_input_tokens_seen": 9990536,
      "step": 15275
    },
    {
      "epoch": 8.0083857442348,
      "grad_norm": 0.08835989236831665,
      "learning_rate": 0.000749405621975795,
      "loss": 0.3841,
      "num_input_tokens_seen": 9994504,
      "step": 15280
    },
    {
      "epoch": 8.011006289308176,
      "grad_norm": 0.10315000265836716,
      "learning_rate": 0.0007492073915668334,
      "loss": 0.4754,
      "num_input_tokens_seen": 9997480,
      "step": 15285
    },
    {
      "epoch": 8.01362683438155,
      "grad_norm": 0.08889321237802505,
      "learning_rate": 0.0007490091090265283,
      "loss": 0.3963,
      "num_input_tokens_seen": 10000840,
      "step": 15290
    },
    {
      "epoch": 8.016247379454926,
      "grad_norm": 0.12133033573627472,
      "learning_rate": 0.0007488107743963587,
      "loss": 0.4505,
      "num_input_tokens_seen": 10003304,
      "step": 15295
    },
    {
      "epoch": 8.018867924528301,
      "grad_norm": 0.11733174324035645,
      "learning_rate": 0.0007486123877178136,
      "loss": 0.5151,
      "num_input_tokens_seen": 10006280,
      "step": 15300
    },
    {
      "epoch": 8.021488469601676,
      "grad_norm": 0.1410122811794281,
      "learning_rate": 0.0007484139490323932,
      "loss": 0.4871,
      "num_input_tokens_seen": 10009800,
      "step": 15305
    },
    {
      "epoch": 8.024109014675052,
      "grad_norm": 0.10162544250488281,
      "learning_rate": 0.000748215458381609,
      "loss": 0.5108,
      "num_input_tokens_seen": 10012840,
      "step": 15310
    },
    {
      "epoch": 8.026729559748428,
      "grad_norm": 0.09793657809495926,
      "learning_rate": 0.0007480169158069826,
      "loss": 0.4043,
      "num_input_tokens_seen": 10015656,
      "step": 15315
    },
    {
      "epoch": 8.029350104821804,
      "grad_norm": 0.09496641904115677,
      "learning_rate": 0.0007478183213500468,
      "loss": 0.4299,
      "num_input_tokens_seen": 10018888,
      "step": 15320
    },
    {
      "epoch": 8.031970649895179,
      "grad_norm": 0.07749977707862854,
      "learning_rate": 0.0007476196750523456,
      "loss": 0.3889,
      "num_input_tokens_seen": 10022280,
      "step": 15325
    },
    {
      "epoch": 8.034591194968554,
      "grad_norm": 0.1402103304862976,
      "learning_rate": 0.000747420976955433,
      "loss": 0.4024,
      "num_input_tokens_seen": 10025416,
      "step": 15330
    },
    {
      "epoch": 8.03721174004193,
      "grad_norm": 0.23163080215454102,
      "learning_rate": 0.0007472222271008752,
      "loss": 0.5444,
      "num_input_tokens_seen": 10027944,
      "step": 15335
    },
    {
      "epoch": 8.039832285115304,
      "grad_norm": 0.059334564954042435,
      "learning_rate": 0.0007470234255302478,
      "loss": 0.4284,
      "num_input_tokens_seen": 10030824,
      "step": 15340
    },
    {
      "epoch": 8.04245283018868,
      "grad_norm": 0.09071208536624908,
      "learning_rate": 0.0007468245722851379,
      "loss": 0.3533,
      "num_input_tokens_seen": 10033128,
      "step": 15345
    },
    {
      "epoch": 8.045073375262055,
      "grad_norm": 0.08776342868804932,
      "learning_rate": 0.0007466256674071434,
      "loss": 0.4078,
      "num_input_tokens_seen": 10036488,
      "step": 15350
    },
    {
      "epoch": 8.04769392033543,
      "grad_norm": 0.11277790367603302,
      "learning_rate": 0.000746426710937873,
      "loss": 0.4245,
      "num_input_tokens_seen": 10039368,
      "step": 15355
    },
    {
      "epoch": 8.050314465408805,
      "grad_norm": 0.1369476020336151,
      "learning_rate": 0.0007462277029189461,
      "loss": 0.4725,
      "num_input_tokens_seen": 10042472,
      "step": 15360
    },
    {
      "epoch": 8.05293501048218,
      "grad_norm": 0.08993257582187653,
      "learning_rate": 0.0007460286433919928,
      "loss": 0.3863,
      "num_input_tokens_seen": 10045640,
      "step": 15365
    },
    {
      "epoch": 8.055555555555555,
      "grad_norm": 0.06922014057636261,
      "learning_rate": 0.0007458295323986542,
      "loss": 0.4404,
      "num_input_tokens_seen": 10049864,
      "step": 15370
    },
    {
      "epoch": 8.05817610062893,
      "grad_norm": 0.1109660342335701,
      "learning_rate": 0.0007456303699805817,
      "loss": 0.5978,
      "num_input_tokens_seen": 10053480,
      "step": 15375
    },
    {
      "epoch": 8.060796645702306,
      "grad_norm": 0.07623327523469925,
      "learning_rate": 0.0007454311561794386,
      "loss": 0.4927,
      "num_input_tokens_seen": 10056872,
      "step": 15380
    },
    {
      "epoch": 8.06341719077568,
      "grad_norm": 0.056075919419527054,
      "learning_rate": 0.0007452318910368972,
      "loss": 0.5464,
      "num_input_tokens_seen": 10060264,
      "step": 15385
    },
    {
      "epoch": 8.066037735849056,
      "grad_norm": 0.11250978708267212,
      "learning_rate": 0.0007450325745946422,
      "loss": 0.3225,
      "num_input_tokens_seen": 10063240,
      "step": 15390
    },
    {
      "epoch": 8.068658280922431,
      "grad_norm": 0.10014481097459793,
      "learning_rate": 0.0007448332068943681,
      "loss": 0.41,
      "num_input_tokens_seen": 10065768,
      "step": 15395
    },
    {
      "epoch": 8.071278825995806,
      "grad_norm": 0.0951317623257637,
      "learning_rate": 0.0007446337879777802,
      "loss": 0.4614,
      "num_input_tokens_seen": 10068872,
      "step": 15400
    },
    {
      "epoch": 8.073899371069182,
      "grad_norm": 0.09760241955518723,
      "learning_rate": 0.0007444343178865948,
      "loss": 0.5079,
      "num_input_tokens_seen": 10071496,
      "step": 15405
    },
    {
      "epoch": 8.076519916142558,
      "grad_norm": 0.08631156384944916,
      "learning_rate": 0.0007442347966625389,
      "loss": 0.629,
      "num_input_tokens_seen": 10074632,
      "step": 15410
    },
    {
      "epoch": 8.079140461215934,
      "grad_norm": 0.15521958470344543,
      "learning_rate": 0.0007440352243473496,
      "loss": 0.4744,
      "num_input_tokens_seen": 10077064,
      "step": 15415
    },
    {
      "epoch": 8.081761006289309,
      "grad_norm": 0.09321638941764832,
      "learning_rate": 0.0007438356009827758,
      "loss": 0.4503,
      "num_input_tokens_seen": 10081288,
      "step": 15420
    },
    {
      "epoch": 8.084381551362684,
      "grad_norm": 0.16535063087940216,
      "learning_rate": 0.0007436359266105759,
      "loss": 0.4601,
      "num_input_tokens_seen": 10084392,
      "step": 15425
    },
    {
      "epoch": 8.08700209643606,
      "grad_norm": 0.08605626225471497,
      "learning_rate": 0.0007434362012725198,
      "loss": 0.312,
      "num_input_tokens_seen": 10088936,
      "step": 15430
    },
    {
      "epoch": 8.089622641509434,
      "grad_norm": 0.0793822631239891,
      "learning_rate": 0.0007432364250103877,
      "loss": 0.4443,
      "num_input_tokens_seen": 10091432,
      "step": 15435
    },
    {
      "epoch": 8.09224318658281,
      "grad_norm": 0.13044194877147675,
      "learning_rate": 0.0007430365978659704,
      "loss": 0.509,
      "num_input_tokens_seen": 10093704,
      "step": 15440
    },
    {
      "epoch": 8.094863731656185,
      "grad_norm": 0.05059954896569252,
      "learning_rate": 0.0007428367198810694,
      "loss": 0.4734,
      "num_input_tokens_seen": 10098120,
      "step": 15445
    },
    {
      "epoch": 8.09748427672956,
      "grad_norm": 0.08787763118743896,
      "learning_rate": 0.0007426367910974973,
      "loss": 0.5166,
      "num_input_tokens_seen": 10100872,
      "step": 15450
    },
    {
      "epoch": 8.100104821802935,
      "grad_norm": 0.06790135055780411,
      "learning_rate": 0.0007424368115570763,
      "loss": 0.4816,
      "num_input_tokens_seen": 10104456,
      "step": 15455
    },
    {
      "epoch": 8.10272536687631,
      "grad_norm": 0.10532486438751221,
      "learning_rate": 0.0007422367813016405,
      "loss": 0.429,
      "num_input_tokens_seen": 10107368,
      "step": 15460
    },
    {
      "epoch": 8.105345911949685,
      "grad_norm": 0.0970299020409584,
      "learning_rate": 0.0007420367003730335,
      "loss": 0.4502,
      "num_input_tokens_seen": 10110344,
      "step": 15465
    },
    {
      "epoch": 8.10796645702306,
      "grad_norm": 0.1002565547823906,
      "learning_rate": 0.0007418365688131103,
      "loss": 0.5292,
      "num_input_tokens_seen": 10113224,
      "step": 15470
    },
    {
      "epoch": 8.110587002096436,
      "grad_norm": 0.09679485857486725,
      "learning_rate": 0.0007416363866637356,
      "loss": 0.6388,
      "num_input_tokens_seen": 10117160,
      "step": 15475
    },
    {
      "epoch": 8.11320754716981,
      "grad_norm": 0.100783571600914,
      "learning_rate": 0.0007414361539667857,
      "loss": 0.4793,
      "num_input_tokens_seen": 10121064,
      "step": 15480
    },
    {
      "epoch": 8.115828092243186,
      "grad_norm": 0.08819825947284698,
      "learning_rate": 0.0007412358707641468,
      "loss": 0.4795,
      "num_input_tokens_seen": 10124360,
      "step": 15485
    },
    {
      "epoch": 8.118448637316561,
      "grad_norm": 0.11421210318803787,
      "learning_rate": 0.0007410355370977158,
      "loss": 0.532,
      "num_input_tokens_seen": 10127400,
      "step": 15490
    },
    {
      "epoch": 8.121069182389936,
      "grad_norm": 0.11418003588914871,
      "learning_rate": 0.0007408351530094005,
      "loss": 0.4669,
      "num_input_tokens_seen": 10129960,
      "step": 15495
    },
    {
      "epoch": 8.123689727463312,
      "grad_norm": 0.10227572917938232,
      "learning_rate": 0.0007406347185411187,
      "loss": 0.4141,
      "num_input_tokens_seen": 10132936,
      "step": 15500
    },
    {
      "epoch": 8.126310272536688,
      "grad_norm": 0.063748799264431,
      "learning_rate": 0.0007404342337347992,
      "loss": 0.4251,
      "num_input_tokens_seen": 10136328,
      "step": 15505
    },
    {
      "epoch": 8.128930817610064,
      "grad_norm": 0.061205487698316574,
      "learning_rate": 0.000740233698632381,
      "loss": 0.4668,
      "num_input_tokens_seen": 10139688,
      "step": 15510
    },
    {
      "epoch": 8.131551362683439,
      "grad_norm": 0.07272027432918549,
      "learning_rate": 0.0007400331132758136,
      "loss": 0.4107,
      "num_input_tokens_seen": 10143016,
      "step": 15515
    },
    {
      "epoch": 8.134171907756814,
      "grad_norm": 0.05758315324783325,
      "learning_rate": 0.0007398324777070576,
      "loss": 0.4476,
      "num_input_tokens_seen": 10147336,
      "step": 15520
    },
    {
      "epoch": 8.13679245283019,
      "grad_norm": 0.1259198635816574,
      "learning_rate": 0.0007396317919680832,
      "loss": 0.377,
      "num_input_tokens_seen": 10150504,
      "step": 15525
    },
    {
      "epoch": 8.139412997903564,
      "grad_norm": 0.15021394193172455,
      "learning_rate": 0.0007394310561008717,
      "loss": 0.5842,
      "num_input_tokens_seen": 10153000,
      "step": 15530
    },
    {
      "epoch": 8.14203354297694,
      "grad_norm": 0.19005684554576874,
      "learning_rate": 0.0007392302701474151,
      "loss": 0.4783,
      "num_input_tokens_seen": 10155784,
      "step": 15535
    },
    {
      "epoch": 8.144654088050315,
      "grad_norm": 0.07392044365406036,
      "learning_rate": 0.0007390294341497151,
      "loss": 0.9215,
      "num_input_tokens_seen": 10159592,
      "step": 15540
    },
    {
      "epoch": 8.14727463312369,
      "grad_norm": 0.12720711529254913,
      "learning_rate": 0.0007388285481497845,
      "loss": 0.3808,
      "num_input_tokens_seen": 10162600,
      "step": 15545
    },
    {
      "epoch": 8.149895178197065,
      "grad_norm": 0.1410031020641327,
      "learning_rate": 0.0007386276121896465,
      "loss": 0.6202,
      "num_input_tokens_seen": 10164968,
      "step": 15550
    },
    {
      "epoch": 8.15251572327044,
      "grad_norm": 0.10872439295053482,
      "learning_rate": 0.0007384266263113342,
      "loss": 0.6487,
      "num_input_tokens_seen": 10171912,
      "step": 15555
    },
    {
      "epoch": 8.155136268343815,
      "grad_norm": 0.1309381127357483,
      "learning_rate": 0.0007382255905568919,
      "loss": 0.5505,
      "num_input_tokens_seen": 10175112,
      "step": 15560
    },
    {
      "epoch": 8.15775681341719,
      "grad_norm": 0.1595238596200943,
      "learning_rate": 0.000738024504968374,
      "loss": 0.5297,
      "num_input_tokens_seen": 10178280,
      "step": 15565
    },
    {
      "epoch": 8.160377358490566,
      "grad_norm": 0.06626202911138535,
      "learning_rate": 0.0007378233695878449,
      "loss": 0.4718,
      "num_input_tokens_seen": 10181352,
      "step": 15570
    },
    {
      "epoch": 8.16299790356394,
      "grad_norm": 0.09098870307207108,
      "learning_rate": 0.0007376221844573803,
      "loss": 0.4864,
      "num_input_tokens_seen": 10185256,
      "step": 15575
    },
    {
      "epoch": 8.165618448637316,
      "grad_norm": 0.07418487221002579,
      "learning_rate": 0.0007374209496190656,
      "loss": 0.5624,
      "num_input_tokens_seen": 10188872,
      "step": 15580
    },
    {
      "epoch": 8.168238993710691,
      "grad_norm": 0.0858251079916954,
      "learning_rate": 0.0007372196651149968,
      "loss": 0.4495,
      "num_input_tokens_seen": 10192008,
      "step": 15585
    },
    {
      "epoch": 8.170859538784066,
      "grad_norm": 0.07797198742628098,
      "learning_rate": 0.0007370183309872805,
      "loss": 0.3754,
      "num_input_tokens_seen": 10196808,
      "step": 15590
    },
    {
      "epoch": 8.173480083857442,
      "grad_norm": 0.09622808545827866,
      "learning_rate": 0.0007368169472780335,
      "loss": 0.5574,
      "num_input_tokens_seen": 10199848,
      "step": 15595
    },
    {
      "epoch": 8.176100628930818,
      "grad_norm": 0.05853546783328056,
      "learning_rate": 0.0007366155140293828,
      "loss": 0.3248,
      "num_input_tokens_seen": 10203048,
      "step": 15600
    },
    {
      "epoch": 8.178721174004194,
      "grad_norm": 0.11418900638818741,
      "learning_rate": 0.000736414031283466,
      "loss": 0.4341,
      "num_input_tokens_seen": 10207144,
      "step": 15605
    },
    {
      "epoch": 8.181341719077569,
      "grad_norm": 0.1565306931734085,
      "learning_rate": 0.000736212499082431,
      "loss": 0.5153,
      "num_input_tokens_seen": 10209672,
      "step": 15610
    },
    {
      "epoch": 8.183962264150944,
      "grad_norm": 0.14436130225658417,
      "learning_rate": 0.0007360109174684359,
      "loss": 0.4171,
      "num_input_tokens_seen": 10212520,
      "step": 15615
    },
    {
      "epoch": 8.18658280922432,
      "grad_norm": 0.10258662700653076,
      "learning_rate": 0.0007358092864836497,
      "loss": 0.4174,
      "num_input_tokens_seen": 10215048,
      "step": 15620
    },
    {
      "epoch": 8.189203354297694,
      "grad_norm": 0.11938963830471039,
      "learning_rate": 0.0007356076061702508,
      "loss": 0.453,
      "num_input_tokens_seen": 10217352,
      "step": 15625
    },
    {
      "epoch": 8.19182389937107,
      "grad_norm": 0.12120702862739563,
      "learning_rate": 0.0007354058765704288,
      "loss": 0.4492,
      "num_input_tokens_seen": 10221096,
      "step": 15630
    },
    {
      "epoch": 8.194444444444445,
      "grad_norm": 0.03848915547132492,
      "learning_rate": 0.000735204097726383,
      "loss": 0.3947,
      "num_input_tokens_seen": 10229608,
      "step": 15635
    },
    {
      "epoch": 8.19706498951782,
      "grad_norm": 0.09951964765787125,
      "learning_rate": 0.0007350022696803233,
      "loss": 0.3904,
      "num_input_tokens_seen": 10233000,
      "step": 15640
    },
    {
      "epoch": 8.199685534591195,
      "grad_norm": 0.07694738358259201,
      "learning_rate": 0.0007348003924744699,
      "loss": 0.5132,
      "num_input_tokens_seen": 10236328,
      "step": 15645
    },
    {
      "epoch": 8.20230607966457,
      "grad_norm": 0.09568063914775848,
      "learning_rate": 0.000734598466151053,
      "loss": 0.4655,
      "num_input_tokens_seen": 10239624,
      "step": 15650
    },
    {
      "epoch": 8.204926624737945,
      "grad_norm": 0.16529303789138794,
      "learning_rate": 0.0007343964907523135,
      "loss": 0.5476,
      "num_input_tokens_seen": 10242440,
      "step": 15655
    },
    {
      "epoch": 8.20754716981132,
      "grad_norm": 0.07172346860170364,
      "learning_rate": 0.0007341944663205023,
      "loss": 0.4156,
      "num_input_tokens_seen": 10245608,
      "step": 15660
    },
    {
      "epoch": 8.210167714884696,
      "grad_norm": 0.14709138870239258,
      "learning_rate": 0.0007339923928978805,
      "loss": 0.4599,
      "num_input_tokens_seen": 10247848,
      "step": 15665
    },
    {
      "epoch": 8.21278825995807,
      "grad_norm": 0.07354573905467987,
      "learning_rate": 0.0007337902705267197,
      "loss": 0.4977,
      "num_input_tokens_seen": 10252616,
      "step": 15670
    },
    {
      "epoch": 8.215408805031446,
      "grad_norm": 0.18488241732120514,
      "learning_rate": 0.0007335880992493016,
      "loss": 0.62,
      "num_input_tokens_seen": 10255880,
      "step": 15675
    },
    {
      "epoch": 8.218029350104821,
      "grad_norm": 0.08332279324531555,
      "learning_rate": 0.000733385879107918,
      "loss": 0.4258,
      "num_input_tokens_seen": 10258632,
      "step": 15680
    },
    {
      "epoch": 8.220649895178196,
      "grad_norm": 0.07083864510059357,
      "learning_rate": 0.000733183610144871,
      "loss": 0.4326,
      "num_input_tokens_seen": 10262504,
      "step": 15685
    },
    {
      "epoch": 8.223270440251572,
      "grad_norm": 0.0826064795255661,
      "learning_rate": 0.0007329812924024732,
      "loss": 0.4153,
      "num_input_tokens_seen": 10265480,
      "step": 15690
    },
    {
      "epoch": 8.225890985324948,
      "grad_norm": 0.10679314285516739,
      "learning_rate": 0.0007327789259230468,
      "loss": 0.4584,
      "num_input_tokens_seen": 10269000,
      "step": 15695
    },
    {
      "epoch": 8.228511530398324,
      "grad_norm": 0.07939447462558746,
      "learning_rate": 0.0007325765107489249,
      "loss": 0.3663,
      "num_input_tokens_seen": 10272072,
      "step": 15700
    },
    {
      "epoch": 8.231132075471699,
      "grad_norm": 0.10307779163122177,
      "learning_rate": 0.0007323740469224505,
      "loss": 0.5545,
      "num_input_tokens_seen": 10276008,
      "step": 15705
    },
    {
      "epoch": 8.233752620545074,
      "grad_norm": 0.10305339843034744,
      "learning_rate": 0.0007321715344859763,
      "loss": 0.4229,
      "num_input_tokens_seen": 10279304,
      "step": 15710
    },
    {
      "epoch": 8.23637316561845,
      "grad_norm": 0.11107382923364639,
      "learning_rate": 0.000731968973481866,
      "loss": 0.5558,
      "num_input_tokens_seen": 10282856,
      "step": 15715
    },
    {
      "epoch": 8.238993710691824,
      "grad_norm": 0.07847436517477036,
      "learning_rate": 0.0007317663639524928,
      "loss": 0.4458,
      "num_input_tokens_seen": 10286376,
      "step": 15720
    },
    {
      "epoch": 8.2416142557652,
      "grad_norm": 0.10089117288589478,
      "learning_rate": 0.0007315637059402404,
      "loss": 0.5198,
      "num_input_tokens_seen": 10288904,
      "step": 15725
    },
    {
      "epoch": 8.244234800838575,
      "grad_norm": 0.08252080529928207,
      "learning_rate": 0.0007313609994875024,
      "loss": 0.521,
      "num_input_tokens_seen": 10294824,
      "step": 15730
    },
    {
      "epoch": 8.24685534591195,
      "grad_norm": 0.09206366539001465,
      "learning_rate": 0.0007311582446366831,
      "loss": 0.4557,
      "num_input_tokens_seen": 10299400,
      "step": 15735
    },
    {
      "epoch": 8.249475890985325,
      "grad_norm": 0.05984070152044296,
      "learning_rate": 0.000730955441430196,
      "loss": 0.3105,
      "num_input_tokens_seen": 10302312,
      "step": 15740
    },
    {
      "epoch": 8.2520964360587,
      "grad_norm": 0.1815074235200882,
      "learning_rate": 0.0007307525899104655,
      "loss": 0.417,
      "num_input_tokens_seen": 10305000,
      "step": 15745
    },
    {
      "epoch": 8.254716981132075,
      "grad_norm": 0.12127607315778732,
      "learning_rate": 0.0007305496901199259,
      "loss": 0.4531,
      "num_input_tokens_seen": 10308296,
      "step": 15750
    },
    {
      "epoch": 8.25733752620545,
      "grad_norm": 0.11853355914354324,
      "learning_rate": 0.0007303467421010211,
      "loss": 0.4114,
      "num_input_tokens_seen": 10311464,
      "step": 15755
    },
    {
      "epoch": 8.259958071278826,
      "grad_norm": 0.11505035310983658,
      "learning_rate": 0.0007301437458962061,
      "loss": 0.3932,
      "num_input_tokens_seen": 10314920,
      "step": 15760
    },
    {
      "epoch": 8.2625786163522,
      "grad_norm": 0.09452110528945923,
      "learning_rate": 0.0007299407015479448,
      "loss": 0.3731,
      "num_input_tokens_seen": 10317896,
      "step": 15765
    },
    {
      "epoch": 8.265199161425576,
      "grad_norm": 0.11123041063547134,
      "learning_rate": 0.0007297376090987122,
      "loss": 0.4528,
      "num_input_tokens_seen": 10320136,
      "step": 15770
    },
    {
      "epoch": 8.267819706498951,
      "grad_norm": 0.07345613092184067,
      "learning_rate": 0.0007295344685909926,
      "loss": 0.3315,
      "num_input_tokens_seen": 10323496,
      "step": 15775
    },
    {
      "epoch": 8.270440251572326,
      "grad_norm": 0.09909642487764359,
      "learning_rate": 0.000729331280067281,
      "loss": 0.384,
      "num_input_tokens_seen": 10327784,
      "step": 15780
    },
    {
      "epoch": 8.273060796645701,
      "grad_norm": 0.07161770015954971,
      "learning_rate": 0.0007291280435700819,
      "loss": 0.4565,
      "num_input_tokens_seen": 10330952,
      "step": 15785
    },
    {
      "epoch": 8.275681341719078,
      "grad_norm": 0.0971095860004425,
      "learning_rate": 0.0007289247591419102,
      "loss": 0.3918,
      "num_input_tokens_seen": 10334568,
      "step": 15790
    },
    {
      "epoch": 8.278301886792454,
      "grad_norm": 0.09180301427841187,
      "learning_rate": 0.0007287214268252904,
      "loss": 0.3777,
      "num_input_tokens_seen": 10338184,
      "step": 15795
    },
    {
      "epoch": 8.280922431865829,
      "grad_norm": 0.09841983765363693,
      "learning_rate": 0.0007285180466627577,
      "loss": 0.5738,
      "num_input_tokens_seen": 10341352,
      "step": 15800
    },
    {
      "epoch": 8.283542976939204,
      "grad_norm": 0.22947466373443604,
      "learning_rate": 0.0007283146186968565,
      "loss": 0.5403,
      "num_input_tokens_seen": 10344136,
      "step": 15805
    },
    {
      "epoch": 8.286163522012579,
      "grad_norm": 0.19774040579795837,
      "learning_rate": 0.000728111142970142,
      "loss": 0.472,
      "num_input_tokens_seen": 10346472,
      "step": 15810
    },
    {
      "epoch": 8.288784067085954,
      "grad_norm": 0.12744273245334625,
      "learning_rate": 0.0007279076195251788,
      "loss": 0.462,
      "num_input_tokens_seen": 10349928,
      "step": 15815
    },
    {
      "epoch": 8.29140461215933,
      "grad_norm": 0.09169132262468338,
      "learning_rate": 0.0007277040484045416,
      "loss": 0.4794,
      "num_input_tokens_seen": 10352936,
      "step": 15820
    },
    {
      "epoch": 8.294025157232705,
      "grad_norm": 0.11305373162031174,
      "learning_rate": 0.0007275004296508154,
      "loss": 0.3872,
      "num_input_tokens_seen": 10356040,
      "step": 15825
    },
    {
      "epoch": 8.29664570230608,
      "grad_norm": 0.14407053589820862,
      "learning_rate": 0.0007272967633065947,
      "loss": 0.3904,
      "num_input_tokens_seen": 10359048,
      "step": 15830
    },
    {
      "epoch": 8.299266247379455,
      "grad_norm": 0.07934559136629105,
      "learning_rate": 0.0007270930494144843,
      "loss": 0.4504,
      "num_input_tokens_seen": 10361832,
      "step": 15835
    },
    {
      "epoch": 8.30188679245283,
      "grad_norm": 0.0965787023305893,
      "learning_rate": 0.0007268892880170988,
      "loss": 0.5569,
      "num_input_tokens_seen": 10364904,
      "step": 15840
    },
    {
      "epoch": 8.304507337526205,
      "grad_norm": 0.16492968797683716,
      "learning_rate": 0.0007266854791570625,
      "loss": 0.6226,
      "num_input_tokens_seen": 10367816,
      "step": 15845
    },
    {
      "epoch": 8.30712788259958,
      "grad_norm": 0.13285280764102936,
      "learning_rate": 0.0007264816228770103,
      "loss": 0.4789,
      "num_input_tokens_seen": 10371080,
      "step": 15850
    },
    {
      "epoch": 8.309748427672956,
      "grad_norm": 0.10676668584346771,
      "learning_rate": 0.0007262777192195866,
      "loss": 0.3675,
      "num_input_tokens_seen": 10373928,
      "step": 15855
    },
    {
      "epoch": 8.31236897274633,
      "grad_norm": 0.25963494181632996,
      "learning_rate": 0.0007260737682274452,
      "loss": 0.5226,
      "num_input_tokens_seen": 10377384,
      "step": 15860
    },
    {
      "epoch": 8.314989517819706,
      "grad_norm": 0.2217690646648407,
      "learning_rate": 0.0007258697699432511,
      "loss": 0.6434,
      "num_input_tokens_seen": 10380392,
      "step": 15865
    },
    {
      "epoch": 8.317610062893081,
      "grad_norm": 0.13871581852436066,
      "learning_rate": 0.0007256657244096775,
      "loss": 0.5478,
      "num_input_tokens_seen": 10382824,
      "step": 15870
    },
    {
      "epoch": 8.320230607966456,
      "grad_norm": 0.10224469751119614,
      "learning_rate": 0.0007254616316694091,
      "loss": 0.4294,
      "num_input_tokens_seen": 10385192,
      "step": 15875
    },
    {
      "epoch": 8.322851153039831,
      "grad_norm": 0.07018731534481049,
      "learning_rate": 0.0007252574917651398,
      "loss": 0.4395,
      "num_input_tokens_seen": 10389256,
      "step": 15880
    },
    {
      "epoch": 8.325471698113208,
      "grad_norm": 0.15065740048885345,
      "learning_rate": 0.0007250533047395728,
      "loss": 0.464,
      "num_input_tokens_seen": 10392168,
      "step": 15885
    },
    {
      "epoch": 8.328092243186584,
      "grad_norm": 0.07729747891426086,
      "learning_rate": 0.0007248490706354221,
      "loss": 0.3667,
      "num_input_tokens_seen": 10395240,
      "step": 15890
    },
    {
      "epoch": 8.330712788259959,
      "grad_norm": 0.09517030417919159,
      "learning_rate": 0.0007246447894954109,
      "loss": 0.3419,
      "num_input_tokens_seen": 10398056,
      "step": 15895
    },
    {
      "epoch": 8.333333333333334,
      "grad_norm": 0.05063376948237419,
      "learning_rate": 0.0007244404613622727,
      "loss": 0.457,
      "num_input_tokens_seen": 10401608,
      "step": 15900
    },
    {
      "epoch": 8.335953878406709,
      "grad_norm": 0.1261625736951828,
      "learning_rate": 0.0007242360862787507,
      "loss": 0.3686,
      "num_input_tokens_seen": 10404424,
      "step": 15905
    },
    {
      "epoch": 8.338574423480084,
      "grad_norm": 0.12046877294778824,
      "learning_rate": 0.0007240316642875975,
      "loss": 0.3551,
      "num_input_tokens_seen": 10407016,
      "step": 15910
    },
    {
      "epoch": 8.34119496855346,
      "grad_norm": 0.09966693073511124,
      "learning_rate": 0.0007238271954315759,
      "loss": 0.5489,
      "num_input_tokens_seen": 10410280,
      "step": 15915
    },
    {
      "epoch": 8.343815513626835,
      "grad_norm": 0.09414823353290558,
      "learning_rate": 0.0007236226797534589,
      "loss": 0.5218,
      "num_input_tokens_seen": 10413000,
      "step": 15920
    },
    {
      "epoch": 8.34643605870021,
      "grad_norm": 0.23242013156414032,
      "learning_rate": 0.0007234181172960283,
      "loss": 0.4264,
      "num_input_tokens_seen": 10415336,
      "step": 15925
    },
    {
      "epoch": 8.349056603773585,
      "grad_norm": 0.1173858568072319,
      "learning_rate": 0.0007232135081020766,
      "loss": 0.4566,
      "num_input_tokens_seen": 10418536,
      "step": 15930
    },
    {
      "epoch": 8.35167714884696,
      "grad_norm": 0.2388729602098465,
      "learning_rate": 0.0007230088522144054,
      "loss": 0.4088,
      "num_input_tokens_seen": 10421320,
      "step": 15935
    },
    {
      "epoch": 8.354297693920335,
      "grad_norm": 0.10976465046405792,
      "learning_rate": 0.0007228041496758265,
      "loss": 0.4678,
      "num_input_tokens_seen": 10425224,
      "step": 15940
    },
    {
      "epoch": 8.35691823899371,
      "grad_norm": 0.11075931787490845,
      "learning_rate": 0.0007225994005291615,
      "loss": 0.3887,
      "num_input_tokens_seen": 10427912,
      "step": 15945
    },
    {
      "epoch": 8.359538784067086,
      "grad_norm": 0.12066569924354553,
      "learning_rate": 0.0007223946048172414,
      "loss": 0.3939,
      "num_input_tokens_seen": 10430600,
      "step": 15950
    },
    {
      "epoch": 8.36215932914046,
      "grad_norm": 0.2590056359767914,
      "learning_rate": 0.0007221897625829072,
      "loss": 0.4844,
      "num_input_tokens_seen": 10433992,
      "step": 15955
    },
    {
      "epoch": 8.364779874213836,
      "grad_norm": 0.0815357118844986,
      "learning_rate": 0.0007219848738690095,
      "loss": 0.3444,
      "num_input_tokens_seen": 10437832,
      "step": 15960
    },
    {
      "epoch": 8.367400419287211,
      "grad_norm": 0.13762791454792023,
      "learning_rate": 0.0007217799387184089,
      "loss": 0.4119,
      "num_input_tokens_seen": 10440840,
      "step": 15965
    },
    {
      "epoch": 8.370020964360586,
      "grad_norm": 0.1962161660194397,
      "learning_rate": 0.0007215749571739752,
      "loss": 0.5352,
      "num_input_tokens_seen": 10443496,
      "step": 15970
    },
    {
      "epoch": 8.372641509433961,
      "grad_norm": 0.07814014703035355,
      "learning_rate": 0.0007213699292785883,
      "loss": 0.4986,
      "num_input_tokens_seen": 10446184,
      "step": 15975
    },
    {
      "epoch": 8.375262054507338,
      "grad_norm": 0.12065242975950241,
      "learning_rate": 0.0007211648550751377,
      "loss": 0.4241,
      "num_input_tokens_seen": 10449064,
      "step": 15980
    },
    {
      "epoch": 8.377882599580714,
      "grad_norm": 0.10628398507833481,
      "learning_rate": 0.0007209597346065226,
      "loss": 0.4279,
      "num_input_tokens_seen": 10452808,
      "step": 15985
    },
    {
      "epoch": 8.380503144654089,
      "grad_norm": 0.07474352419376373,
      "learning_rate": 0.000720754567915652,
      "loss": 0.4915,
      "num_input_tokens_seen": 10456808,
      "step": 15990
    },
    {
      "epoch": 8.383123689727464,
      "grad_norm": 0.07568340003490448,
      "learning_rate": 0.000720549355045444,
      "loss": 0.4087,
      "num_input_tokens_seen": 10459880,
      "step": 15995
    },
    {
      "epoch": 8.385744234800839,
      "grad_norm": 0.06931295990943909,
      "learning_rate": 0.0007203440960388273,
      "loss": 0.4766,
      "num_input_tokens_seen": 10463208,
      "step": 16000
    },
    {
      "epoch": 8.388364779874214,
      "grad_norm": 0.09965479373931885,
      "learning_rate": 0.0007201387909387396,
      "loss": 0.4681,
      "num_input_tokens_seen": 10467368,
      "step": 16005
    },
    {
      "epoch": 8.39098532494759,
      "grad_norm": 0.12229368835687637,
      "learning_rate": 0.0007199334397881282,
      "loss": 0.4211,
      "num_input_tokens_seen": 10470344,
      "step": 16010
    },
    {
      "epoch": 8.393605870020965,
      "grad_norm": 0.12785643339157104,
      "learning_rate": 0.0007197280426299502,
      "loss": 0.4491,
      "num_input_tokens_seen": 10474312,
      "step": 16015
    },
    {
      "epoch": 8.39622641509434,
      "grad_norm": 0.10876700282096863,
      "learning_rate": 0.0007195225995071727,
      "loss": 0.4529,
      "num_input_tokens_seen": 10477224,
      "step": 16020
    },
    {
      "epoch": 8.398846960167715,
      "grad_norm": 0.07916576415300369,
      "learning_rate": 0.0007193171104627718,
      "loss": 0.4419,
      "num_input_tokens_seen": 10481800,
      "step": 16025
    },
    {
      "epoch": 8.40146750524109,
      "grad_norm": 0.07989049702882767,
      "learning_rate": 0.0007191115755397333,
      "loss": 0.3846,
      "num_input_tokens_seen": 10484584,
      "step": 16030
    },
    {
      "epoch": 8.404088050314465,
      "grad_norm": 0.12570106983184814,
      "learning_rate": 0.0007189059947810531,
      "loss": 0.3949,
      "num_input_tokens_seen": 10487272,
      "step": 16035
    },
    {
      "epoch": 8.40670859538784,
      "grad_norm": 0.06998699903488159,
      "learning_rate": 0.0007187003682297363,
      "loss": 0.3544,
      "num_input_tokens_seen": 10490856,
      "step": 16040
    },
    {
      "epoch": 8.409329140461216,
      "grad_norm": 0.08168743550777435,
      "learning_rate": 0.0007184946959287972,
      "loss": 0.5616,
      "num_input_tokens_seen": 10493800,
      "step": 16045
    },
    {
      "epoch": 8.41194968553459,
      "grad_norm": 0.16660068929195404,
      "learning_rate": 0.0007182889779212609,
      "loss": 0.5127,
      "num_input_tokens_seen": 10497512,
      "step": 16050
    },
    {
      "epoch": 8.414570230607966,
      "grad_norm": 0.06851831078529358,
      "learning_rate": 0.0007180832142501605,
      "loss": 0.4394,
      "num_input_tokens_seen": 10501096,
      "step": 16055
    },
    {
      "epoch": 8.417190775681341,
      "grad_norm": 0.09136621654033661,
      "learning_rate": 0.0007178774049585397,
      "loss": 0.405,
      "num_input_tokens_seen": 10504648,
      "step": 16060
    },
    {
      "epoch": 8.419811320754716,
      "grad_norm": 0.1000676304101944,
      "learning_rate": 0.0007176715500894515,
      "loss": 0.2716,
      "num_input_tokens_seen": 10507016,
      "step": 16065
    },
    {
      "epoch": 8.422431865828091,
      "grad_norm": 0.050572775304317474,
      "learning_rate": 0.0007174656496859584,
      "loss": 0.3719,
      "num_input_tokens_seen": 10510792,
      "step": 16070
    },
    {
      "epoch": 8.425052410901468,
      "grad_norm": 0.08064122498035431,
      "learning_rate": 0.0007172597037911323,
      "loss": 0.5325,
      "num_input_tokens_seen": 10514696,
      "step": 16075
    },
    {
      "epoch": 8.427672955974844,
      "grad_norm": 0.06812812387943268,
      "learning_rate": 0.0007170537124480548,
      "loss": 0.388,
      "num_input_tokens_seen": 10518152,
      "step": 16080
    },
    {
      "epoch": 8.430293501048219,
      "grad_norm": 0.08993570506572723,
      "learning_rate": 0.0007168476756998169,
      "loss": 0.5637,
      "num_input_tokens_seen": 10521128,
      "step": 16085
    },
    {
      "epoch": 8.432914046121594,
      "grad_norm": 0.13600961863994598,
      "learning_rate": 0.0007166415935895194,
      "loss": 0.6979,
      "num_input_tokens_seen": 10524456,
      "step": 16090
    },
    {
      "epoch": 8.435534591194969,
      "grad_norm": 0.08621753752231598,
      "learning_rate": 0.0007164354661602718,
      "loss": 0.42,
      "num_input_tokens_seen": 10526920,
      "step": 16095
    },
    {
      "epoch": 8.438155136268344,
      "grad_norm": 0.08274795860052109,
      "learning_rate": 0.000716229293455194,
      "loss": 0.4007,
      "num_input_tokens_seen": 10529640,
      "step": 16100
    },
    {
      "epoch": 8.44077568134172,
      "grad_norm": 0.15447497367858887,
      "learning_rate": 0.000716023075517415,
      "loss": 0.4244,
      "num_input_tokens_seen": 10532968,
      "step": 16105
    },
    {
      "epoch": 8.443396226415095,
      "grad_norm": 0.10573285818099976,
      "learning_rate": 0.000715816812390073,
      "loss": 0.4773,
      "num_input_tokens_seen": 10535944,
      "step": 16110
    },
    {
      "epoch": 8.44601677148847,
      "grad_norm": 0.0804653912782669,
      "learning_rate": 0.0007156105041163161,
      "loss": 0.3893,
      "num_input_tokens_seen": 10539304,
      "step": 16115
    },
    {
      "epoch": 8.448637316561845,
      "grad_norm": 0.08221926540136337,
      "learning_rate": 0.0007154041507393015,
      "loss": 0.3768,
      "num_input_tokens_seen": 10542120,
      "step": 16120
    },
    {
      "epoch": 8.45125786163522,
      "grad_norm": 0.06945580244064331,
      "learning_rate": 0.000715197752302196,
      "loss": 0.4256,
      "num_input_tokens_seen": 10544392,
      "step": 16125
    },
    {
      "epoch": 8.453878406708595,
      "grad_norm": 0.08809662610292435,
      "learning_rate": 0.0007149913088481759,
      "loss": 0.4998,
      "num_input_tokens_seen": 10547656,
      "step": 16130
    },
    {
      "epoch": 8.45649895178197,
      "grad_norm": 0.1613326519727707,
      "learning_rate": 0.0007147848204204266,
      "loss": 0.4831,
      "num_input_tokens_seen": 10550984,
      "step": 16135
    },
    {
      "epoch": 8.459119496855346,
      "grad_norm": 0.07526586204767227,
      "learning_rate": 0.0007145782870621435,
      "loss": 0.6058,
      "num_input_tokens_seen": 10554952,
      "step": 16140
    },
    {
      "epoch": 8.46174004192872,
      "grad_norm": 0.14544586837291718,
      "learning_rate": 0.0007143717088165304,
      "loss": 0.5127,
      "num_input_tokens_seen": 10557608,
      "step": 16145
    },
    {
      "epoch": 8.464360587002096,
      "grad_norm": 0.13822291791439056,
      "learning_rate": 0.0007141650857268019,
      "loss": 0.5553,
      "num_input_tokens_seen": 10561352,
      "step": 16150
    },
    {
      "epoch": 8.466981132075471,
      "grad_norm": 0.13703814148902893,
      "learning_rate": 0.0007139584178361807,
      "loss": 0.511,
      "num_input_tokens_seen": 10565064,
      "step": 16155
    },
    {
      "epoch": 8.469601677148846,
      "grad_norm": 0.07380655407905579,
      "learning_rate": 0.0007137517051878994,
      "loss": 0.368,
      "num_input_tokens_seen": 10567976,
      "step": 16160
    },
    {
      "epoch": 8.472222222222221,
      "grad_norm": 0.06396652013063431,
      "learning_rate": 0.0007135449478251998,
      "loss": 0.5301,
      "num_input_tokens_seen": 10571528,
      "step": 16165
    },
    {
      "epoch": 8.474842767295598,
      "grad_norm": 0.1004771888256073,
      "learning_rate": 0.0007133381457913336,
      "loss": 0.4995,
      "num_input_tokens_seen": 10574024,
      "step": 16170
    },
    {
      "epoch": 8.477463312368974,
      "grad_norm": 0.08786644786596298,
      "learning_rate": 0.0007131312991295611,
      "loss": 0.5283,
      "num_input_tokens_seen": 10578024,
      "step": 16175
    },
    {
      "epoch": 8.480083857442349,
      "grad_norm": 0.0532975010573864,
      "learning_rate": 0.0007129244078831525,
      "loss": 0.4687,
      "num_input_tokens_seen": 10581448,
      "step": 16180
    },
    {
      "epoch": 8.482704402515724,
      "grad_norm": 0.25107333064079285,
      "learning_rate": 0.0007127174720953866,
      "loss": 0.4309,
      "num_input_tokens_seen": 10584328,
      "step": 16185
    },
    {
      "epoch": 8.485324947589099,
      "grad_norm": 0.10708337277173996,
      "learning_rate": 0.0007125104918095526,
      "loss": 0.5768,
      "num_input_tokens_seen": 10587400,
      "step": 16190
    },
    {
      "epoch": 8.487945492662474,
      "grad_norm": 0.10149355232715607,
      "learning_rate": 0.0007123034670689483,
      "loss": 0.4925,
      "num_input_tokens_seen": 10591368,
      "step": 16195
    },
    {
      "epoch": 8.49056603773585,
      "grad_norm": 0.08430124819278717,
      "learning_rate": 0.0007120963979168804,
      "loss": 0.5451,
      "num_input_tokens_seen": 10594856,
      "step": 16200
    },
    {
      "epoch": 8.493186582809225,
      "grad_norm": 0.1549888700246811,
      "learning_rate": 0.000711889284396666,
      "loss": 0.5449,
      "num_input_tokens_seen": 10597928,
      "step": 16205
    },
    {
      "epoch": 8.4958071278826,
      "grad_norm": 0.054475605487823486,
      "learning_rate": 0.0007116821265516307,
      "loss": 0.4791,
      "num_input_tokens_seen": 10601448,
      "step": 16210
    },
    {
      "epoch": 8.498427672955975,
      "grad_norm": 0.0909576490521431,
      "learning_rate": 0.0007114749244251094,
      "loss": 0.4503,
      "num_input_tokens_seen": 10604520,
      "step": 16215
    },
    {
      "epoch": 8.50104821802935,
      "grad_norm": 0.07940737158060074,
      "learning_rate": 0.0007112676780604468,
      "loss": 0.5238,
      "num_input_tokens_seen": 10607944,
      "step": 16220
    },
    {
      "epoch": 8.503668763102725,
      "grad_norm": 0.1263839602470398,
      "learning_rate": 0.000711060387500996,
      "loss": 0.4994,
      "num_input_tokens_seen": 10611208,
      "step": 16225
    },
    {
      "epoch": 8.5062893081761,
      "grad_norm": 0.11825857311487198,
      "learning_rate": 0.0007108530527901199,
      "loss": 0.5229,
      "num_input_tokens_seen": 10613896,
      "step": 16230
    },
    {
      "epoch": 8.508909853249476,
      "grad_norm": 0.10956164449453354,
      "learning_rate": 0.000710645673971191,
      "loss": 0.3878,
      "num_input_tokens_seen": 10616392,
      "step": 16235
    },
    {
      "epoch": 8.51153039832285,
      "grad_norm": 0.09405281394720078,
      "learning_rate": 0.00071043825108759,
      "loss": 0.5601,
      "num_input_tokens_seen": 10620232,
      "step": 16240
    },
    {
      "epoch": 8.514150943396226,
      "grad_norm": 0.11640539765357971,
      "learning_rate": 0.0007102307841827079,
      "loss": 0.4076,
      "num_input_tokens_seen": 10627272,
      "step": 16245
    },
    {
      "epoch": 8.516771488469601,
      "grad_norm": 0.09412393718957901,
      "learning_rate": 0.0007100232732999443,
      "loss": 0.5176,
      "num_input_tokens_seen": 10630344,
      "step": 16250
    },
    {
      "epoch": 8.519392033542976,
      "grad_norm": 0.1254960298538208,
      "learning_rate": 0.0007098157184827076,
      "loss": 0.4389,
      "num_input_tokens_seen": 10633480,
      "step": 16255
    },
    {
      "epoch": 8.522012578616351,
      "grad_norm": 0.15436124801635742,
      "learning_rate": 0.0007096081197744166,
      "loss": 0.5011,
      "num_input_tokens_seen": 10636104,
      "step": 16260
    },
    {
      "epoch": 8.524633123689728,
      "grad_norm": 0.10319391638040543,
      "learning_rate": 0.0007094004772184981,
      "loss": 0.4092,
      "num_input_tokens_seen": 10638696,
      "step": 16265
    },
    {
      "epoch": 8.527253668763104,
      "grad_norm": 0.08077911287546158,
      "learning_rate": 0.0007091927908583889,
      "loss": 0.4759,
      "num_input_tokens_seen": 10641320,
      "step": 16270
    },
    {
      "epoch": 8.529874213836479,
      "grad_norm": 0.07288096845149994,
      "learning_rate": 0.0007089850607375343,
      "loss": 0.4629,
      "num_input_tokens_seen": 10644360,
      "step": 16275
    },
    {
      "epoch": 8.532494758909854,
      "grad_norm": 0.12996791303157806,
      "learning_rate": 0.0007087772868993894,
      "loss": 0.5623,
      "num_input_tokens_seen": 10647464,
      "step": 16280
    },
    {
      "epoch": 8.535115303983229,
      "grad_norm": 0.14347721636295319,
      "learning_rate": 0.0007085694693874178,
      "loss": 0.4375,
      "num_input_tokens_seen": 10650920,
      "step": 16285
    },
    {
      "epoch": 8.537735849056604,
      "grad_norm": 0.09957638382911682,
      "learning_rate": 0.0007083616082450928,
      "loss": 0.461,
      "num_input_tokens_seen": 10654984,
      "step": 16290
    },
    {
      "epoch": 8.54035639412998,
      "grad_norm": 0.10275539010763168,
      "learning_rate": 0.0007081537035158962,
      "loss": 0.3891,
      "num_input_tokens_seen": 10658216,
      "step": 16295
    },
    {
      "epoch": 8.542976939203355,
      "grad_norm": 0.10307781398296356,
      "learning_rate": 0.0007079457552433198,
      "loss": 0.546,
      "num_input_tokens_seen": 10660904,
      "step": 16300
    },
    {
      "epoch": 8.54559748427673,
      "grad_norm": 0.08534196019172668,
      "learning_rate": 0.0007077377634708637,
      "loss": 0.4608,
      "num_input_tokens_seen": 10664040,
      "step": 16305
    },
    {
      "epoch": 8.548218029350105,
      "grad_norm": 0.09526490420103073,
      "learning_rate": 0.0007075297282420375,
      "loss": 0.5453,
      "num_input_tokens_seen": 10668008,
      "step": 16310
    },
    {
      "epoch": 8.55083857442348,
      "grad_norm": 0.07596315443515778,
      "learning_rate": 0.0007073216496003598,
      "loss": 0.4225,
      "num_input_tokens_seen": 10673032,
      "step": 16315
    },
    {
      "epoch": 8.553459119496855,
      "grad_norm": 0.14390583336353302,
      "learning_rate": 0.0007071135275893584,
      "loss": 0.6353,
      "num_input_tokens_seen": 10676200,
      "step": 16320
    },
    {
      "epoch": 8.55607966457023,
      "grad_norm": 0.07086155563592911,
      "learning_rate": 0.0007069053622525696,
      "loss": 0.4842,
      "num_input_tokens_seen": 10680168,
      "step": 16325
    },
    {
      "epoch": 8.558700209643606,
      "grad_norm": 0.14512008428573608,
      "learning_rate": 0.0007066971536335395,
      "loss": 0.5434,
      "num_input_tokens_seen": 10683304,
      "step": 16330
    },
    {
      "epoch": 8.56132075471698,
      "grad_norm": 0.07070159167051315,
      "learning_rate": 0.0007064889017758234,
      "loss": 0.4834,
      "num_input_tokens_seen": 10686856,
      "step": 16335
    },
    {
      "epoch": 8.563941299790356,
      "grad_norm": 0.10546520352363586,
      "learning_rate": 0.0007062806067229845,
      "loss": 0.4978,
      "num_input_tokens_seen": 10691048,
      "step": 16340
    },
    {
      "epoch": 8.566561844863731,
      "grad_norm": 0.08374320715665817,
      "learning_rate": 0.0007060722685185961,
      "loss": 0.5083,
      "num_input_tokens_seen": 10694504,
      "step": 16345
    },
    {
      "epoch": 8.569182389937106,
      "grad_norm": 0.102325938642025,
      "learning_rate": 0.00070586388720624,
      "loss": 0.4278,
      "num_input_tokens_seen": 10697576,
      "step": 16350
    },
    {
      "epoch": 8.571802935010481,
      "grad_norm": 0.10970931500196457,
      "learning_rate": 0.0007056554628295076,
      "loss": 0.4547,
      "num_input_tokens_seen": 10700552,
      "step": 16355
    },
    {
      "epoch": 8.574423480083858,
      "grad_norm": 0.15478143095970154,
      "learning_rate": 0.0007054469954319984,
      "loss": 0.5279,
      "num_input_tokens_seen": 10703240,
      "step": 16360
    },
    {
      "epoch": 8.577044025157234,
      "grad_norm": 0.29539358615875244,
      "learning_rate": 0.0007052384850573217,
      "loss": 0.4809,
      "num_input_tokens_seen": 10705960,
      "step": 16365
    },
    {
      "epoch": 8.579664570230609,
      "grad_norm": 0.11148899048566818,
      "learning_rate": 0.0007050299317490952,
      "loss": 0.427,
      "num_input_tokens_seen": 10709672,
      "step": 16370
    },
    {
      "epoch": 8.582285115303984,
      "grad_norm": 0.06882937997579575,
      "learning_rate": 0.0007048213355509463,
      "loss": 0.5348,
      "num_input_tokens_seen": 10713096,
      "step": 16375
    },
    {
      "epoch": 8.584905660377359,
      "grad_norm": 0.09736675024032593,
      "learning_rate": 0.0007046126965065107,
      "loss": 0.5269,
      "num_input_tokens_seen": 10716552,
      "step": 16380
    },
    {
      "epoch": 8.587526205450734,
      "grad_norm": 0.18732300400733948,
      "learning_rate": 0.0007044040146594332,
      "loss": 0.4156,
      "num_input_tokens_seen": 10719336,
      "step": 16385
    },
    {
      "epoch": 8.59014675052411,
      "grad_norm": 0.07608570158481598,
      "learning_rate": 0.0007041952900533681,
      "loss": 0.3454,
      "num_input_tokens_seen": 10723528,
      "step": 16390
    },
    {
      "epoch": 8.592767295597485,
      "grad_norm": 0.11986351758241653,
      "learning_rate": 0.0007039865227319777,
      "loss": 0.4022,
      "num_input_tokens_seen": 10726248,
      "step": 16395
    },
    {
      "epoch": 8.59538784067086,
      "grad_norm": 0.12191347777843475,
      "learning_rate": 0.0007037777127389339,
      "loss": 0.4164,
      "num_input_tokens_seen": 10729000,
      "step": 16400
    },
    {
      "epoch": 8.598008385744235,
      "grad_norm": 0.060974329710006714,
      "learning_rate": 0.0007035688601179177,
      "loss": 0.3676,
      "num_input_tokens_seen": 10732328,
      "step": 16405
    },
    {
      "epoch": 8.60062893081761,
      "grad_norm": 0.09689673036336899,
      "learning_rate": 0.000703359964912618,
      "loss": 0.4292,
      "num_input_tokens_seen": 10735112,
      "step": 16410
    },
    {
      "epoch": 8.603249475890985,
      "grad_norm": 0.07399829477071762,
      "learning_rate": 0.000703151027166734,
      "loss": 0.577,
      "num_input_tokens_seen": 10739016,
      "step": 16415
    },
    {
      "epoch": 8.60587002096436,
      "grad_norm": 0.13884912431240082,
      "learning_rate": 0.0007029420469239726,
      "loss": 0.4026,
      "num_input_tokens_seen": 10741992,
      "step": 16420
    },
    {
      "epoch": 8.608490566037736,
      "grad_norm": 0.06286115199327469,
      "learning_rate": 0.0007027330242280503,
      "loss": 0.4209,
      "num_input_tokens_seen": 10746120,
      "step": 16425
    },
    {
      "epoch": 8.61111111111111,
      "grad_norm": 0.1392250508069992,
      "learning_rate": 0.0007025239591226923,
      "loss": 0.4057,
      "num_input_tokens_seen": 10748584,
      "step": 16430
    },
    {
      "epoch": 8.613731656184486,
      "grad_norm": 0.12098359316587448,
      "learning_rate": 0.0007023148516516326,
      "loss": 0.4704,
      "num_input_tokens_seen": 10751400,
      "step": 16435
    },
    {
      "epoch": 8.616352201257861,
      "grad_norm": 0.13089102506637573,
      "learning_rate": 0.0007021057018586139,
      "loss": 0.4057,
      "num_input_tokens_seen": 10754024,
      "step": 16440
    },
    {
      "epoch": 8.618972746331236,
      "grad_norm": 0.070638507604599,
      "learning_rate": 0.0007018965097873883,
      "loss": 0.3895,
      "num_input_tokens_seen": 10757608,
      "step": 16445
    },
    {
      "epoch": 8.621593291404611,
      "grad_norm": 0.08278894424438477,
      "learning_rate": 0.0007016872754817161,
      "loss": 0.5431,
      "num_input_tokens_seen": 10760232,
      "step": 16450
    },
    {
      "epoch": 8.624213836477988,
      "grad_norm": 0.08556561917066574,
      "learning_rate": 0.0007014779989853668,
      "loss": 0.4987,
      "num_input_tokens_seen": 10763656,
      "step": 16455
    },
    {
      "epoch": 8.626834381551364,
      "grad_norm": 0.07541760802268982,
      "learning_rate": 0.0007012686803421189,
      "loss": 0.3939,
      "num_input_tokens_seen": 10768328,
      "step": 16460
    },
    {
      "epoch": 8.629454926624739,
      "grad_norm": 0.0889834389090538,
      "learning_rate": 0.000701059319595759,
      "loss": 0.569,
      "num_input_tokens_seen": 10771112,
      "step": 16465
    },
    {
      "epoch": 8.632075471698114,
      "grad_norm": 0.06346936523914337,
      "learning_rate": 0.0007008499167900833,
      "loss": 0.555,
      "num_input_tokens_seen": 10774312,
      "step": 16470
    },
    {
      "epoch": 8.634696016771489,
      "grad_norm": 0.07080686837434769,
      "learning_rate": 0.0007006404719688966,
      "loss": 0.3746,
      "num_input_tokens_seen": 10777160,
      "step": 16475
    },
    {
      "epoch": 8.637316561844864,
      "grad_norm": 0.07933215796947479,
      "learning_rate": 0.000700430985176012,
      "loss": 0.3651,
      "num_input_tokens_seen": 10781096,
      "step": 16480
    },
    {
      "epoch": 8.63993710691824,
      "grad_norm": 0.07167898118495941,
      "learning_rate": 0.0007002214564552521,
      "loss": 0.4535,
      "num_input_tokens_seen": 10784264,
      "step": 16485
    },
    {
      "epoch": 8.642557651991615,
      "grad_norm": 0.15833351016044617,
      "learning_rate": 0.0007000118858504476,
      "loss": 0.4121,
      "num_input_tokens_seen": 10786856,
      "step": 16490
    },
    {
      "epoch": 8.64517819706499,
      "grad_norm": 0.08632826805114746,
      "learning_rate": 0.0006998022734054386,
      "loss": 0.4757,
      "num_input_tokens_seen": 10789992,
      "step": 16495
    },
    {
      "epoch": 8.647798742138365,
      "grad_norm": 0.11480782926082611,
      "learning_rate": 0.0006995926191640734,
      "loss": 0.4354,
      "num_input_tokens_seen": 10793064,
      "step": 16500
    },
    {
      "epoch": 8.65041928721174,
      "grad_norm": 0.12251242250204086,
      "learning_rate": 0.0006993829231702092,
      "loss": 0.5182,
      "num_input_tokens_seen": 10795784,
      "step": 16505
    },
    {
      "epoch": 8.653039832285115,
      "grad_norm": 0.15185333788394928,
      "learning_rate": 0.0006991731854677124,
      "loss": 0.4624,
      "num_input_tokens_seen": 10798824,
      "step": 16510
    },
    {
      "epoch": 8.65566037735849,
      "grad_norm": 0.07221467047929764,
      "learning_rate": 0.0006989634061004572,
      "loss": 0.5275,
      "num_input_tokens_seen": 10801960,
      "step": 16515
    },
    {
      "epoch": 8.658280922431866,
      "grad_norm": 0.07576120644807816,
      "learning_rate": 0.0006987535851123276,
      "loss": 0.4324,
      "num_input_tokens_seen": 10805320,
      "step": 16520
    },
    {
      "epoch": 8.66090146750524,
      "grad_norm": 0.07043063640594482,
      "learning_rate": 0.0006985437225472155,
      "loss": 0.3602,
      "num_input_tokens_seen": 10808520,
      "step": 16525
    },
    {
      "epoch": 8.663522012578616,
      "grad_norm": 0.12593317031860352,
      "learning_rate": 0.0006983338184490215,
      "loss": 0.51,
      "num_input_tokens_seen": 10811176,
      "step": 16530
    },
    {
      "epoch": 8.666142557651991,
      "grad_norm": 0.16181056201457977,
      "learning_rate": 0.0006981238728616557,
      "loss": 0.4384,
      "num_input_tokens_seen": 10815240,
      "step": 16535
    },
    {
      "epoch": 8.668763102725366,
      "grad_norm": 0.14857225120067596,
      "learning_rate": 0.0006979138858290358,
      "loss": 0.4188,
      "num_input_tokens_seen": 10818152,
      "step": 16540
    },
    {
      "epoch": 8.671383647798741,
      "grad_norm": 0.13883425295352936,
      "learning_rate": 0.0006977038573950889,
      "loss": 0.4911,
      "num_input_tokens_seen": 10821128,
      "step": 16545
    },
    {
      "epoch": 8.674004192872118,
      "grad_norm": 0.07983887940645218,
      "learning_rate": 0.0006974937876037508,
      "loss": 0.4447,
      "num_input_tokens_seen": 10824040,
      "step": 16550
    },
    {
      "epoch": 8.676624737945493,
      "grad_norm": 0.07691794633865356,
      "learning_rate": 0.0006972836764989652,
      "loss": 0.4835,
      "num_input_tokens_seen": 10827304,
      "step": 16555
    },
    {
      "epoch": 8.679245283018869,
      "grad_norm": 0.160982146859169,
      "learning_rate": 0.0006970735241246853,
      "loss": 0.4682,
      "num_input_tokens_seen": 10831144,
      "step": 16560
    },
    {
      "epoch": 8.681865828092244,
      "grad_norm": 0.11939463764429092,
      "learning_rate": 0.0006968633305248724,
      "loss": 0.4298,
      "num_input_tokens_seen": 10834696,
      "step": 16565
    },
    {
      "epoch": 8.684486373165619,
      "grad_norm": 0.07320520281791687,
      "learning_rate": 0.0006966530957434968,
      "loss": 0.3767,
      "num_input_tokens_seen": 10837320,
      "step": 16570
    },
    {
      "epoch": 8.687106918238994,
      "grad_norm": 0.1357642412185669,
      "learning_rate": 0.0006964428198245372,
      "loss": 0.7303,
      "num_input_tokens_seen": 10840008,
      "step": 16575
    },
    {
      "epoch": 8.68972746331237,
      "grad_norm": 0.14876388013362885,
      "learning_rate": 0.0006962325028119806,
      "loss": 0.4221,
      "num_input_tokens_seen": 10844328,
      "step": 16580
    },
    {
      "epoch": 8.692348008385745,
      "grad_norm": 0.1551060825586319,
      "learning_rate": 0.0006960221447498232,
      "loss": 0.6062,
      "num_input_tokens_seen": 10847400,
      "step": 16585
    },
    {
      "epoch": 8.69496855345912,
      "grad_norm": 0.09479650110006332,
      "learning_rate": 0.0006958117456820696,
      "loss": 0.4049,
      "num_input_tokens_seen": 10850664,
      "step": 16590
    },
    {
      "epoch": 8.697589098532495,
      "grad_norm": 0.0968545451760292,
      "learning_rate": 0.0006956013056527326,
      "loss": 0.5323,
      "num_input_tokens_seen": 10853864,
      "step": 16595
    },
    {
      "epoch": 8.70020964360587,
      "grad_norm": 0.15499748289585114,
      "learning_rate": 0.0006953908247058341,
      "loss": 0.4891,
      "num_input_tokens_seen": 10856936,
      "step": 16600
    },
    {
      "epoch": 8.702830188679245,
      "grad_norm": 0.058756161481142044,
      "learning_rate": 0.0006951803028854041,
      "loss": 0.4916,
      "num_input_tokens_seen": 10860488,
      "step": 16605
    },
    {
      "epoch": 8.70545073375262,
      "grad_norm": 0.10870400071144104,
      "learning_rate": 0.0006949697402354816,
      "loss": 0.3689,
      "num_input_tokens_seen": 10863592,
      "step": 16610
    },
    {
      "epoch": 8.708071278825996,
      "grad_norm": 0.04605371132493019,
      "learning_rate": 0.0006947591368001138,
      "loss": 0.4438,
      "num_input_tokens_seen": 10866856,
      "step": 16615
    },
    {
      "epoch": 8.71069182389937,
      "grad_norm": 0.09106212854385376,
      "learning_rate": 0.0006945484926233563,
      "loss": 0.4148,
      "num_input_tokens_seen": 10869928,
      "step": 16620
    },
    {
      "epoch": 8.713312368972746,
      "grad_norm": 0.1348789483308792,
      "learning_rate": 0.0006943378077492737,
      "loss": 0.7543,
      "num_input_tokens_seen": 10872456,
      "step": 16625
    },
    {
      "epoch": 8.715932914046121,
      "grad_norm": 0.0862884595990181,
      "learning_rate": 0.000694127082221939,
      "loss": 0.3888,
      "num_input_tokens_seen": 10876744,
      "step": 16630
    },
    {
      "epoch": 8.718553459119496,
      "grad_norm": 0.10619377344846725,
      "learning_rate": 0.0006939163160854334,
      "loss": 0.3899,
      "num_input_tokens_seen": 10880072,
      "step": 16635
    },
    {
      "epoch": 8.721174004192871,
      "grad_norm": 0.14050327241420746,
      "learning_rate": 0.0006937055093838467,
      "loss": 0.5417,
      "num_input_tokens_seen": 10883112,
      "step": 16640
    },
    {
      "epoch": 8.723794549266248,
      "grad_norm": 0.06048629805445671,
      "learning_rate": 0.0006934946621612774,
      "loss": 0.4074,
      "num_input_tokens_seen": 10886280,
      "step": 16645
    },
    {
      "epoch": 8.726415094339622,
      "grad_norm": 0.10878706723451614,
      "learning_rate": 0.0006932837744618322,
      "loss": 0.5205,
      "num_input_tokens_seen": 10890280,
      "step": 16650
    },
    {
      "epoch": 8.729035639412999,
      "grad_norm": 0.09855329245328903,
      "learning_rate": 0.0006930728463296265,
      "loss": 0.406,
      "num_input_tokens_seen": 10893608,
      "step": 16655
    },
    {
      "epoch": 8.731656184486374,
      "grad_norm": 0.11015339195728302,
      "learning_rate": 0.0006928618778087842,
      "loss": 0.4764,
      "num_input_tokens_seen": 10896904,
      "step": 16660
    },
    {
      "epoch": 8.734276729559749,
      "grad_norm": 0.08322197943925858,
      "learning_rate": 0.0006926508689434371,
      "loss": 0.424,
      "num_input_tokens_seen": 10899752,
      "step": 16665
    },
    {
      "epoch": 8.736897274633124,
      "grad_norm": 0.08371575176715851,
      "learning_rate": 0.0006924398197777263,
      "loss": 0.4969,
      "num_input_tokens_seen": 10903592,
      "step": 16670
    },
    {
      "epoch": 8.7395178197065,
      "grad_norm": 0.09418488293886185,
      "learning_rate": 0.0006922287303558006,
      "loss": 0.4495,
      "num_input_tokens_seen": 10907752,
      "step": 16675
    },
    {
      "epoch": 8.742138364779874,
      "grad_norm": 0.13797393441200256,
      "learning_rate": 0.0006920176007218175,
      "loss": 0.3783,
      "num_input_tokens_seen": 10910600,
      "step": 16680
    },
    {
      "epoch": 8.74475890985325,
      "grad_norm": 0.11450305581092834,
      "learning_rate": 0.000691806430919943,
      "loss": 0.3735,
      "num_input_tokens_seen": 10913800,
      "step": 16685
    },
    {
      "epoch": 8.747379454926625,
      "grad_norm": 0.10146943479776382,
      "learning_rate": 0.0006915952209943514,
      "loss": 0.4823,
      "num_input_tokens_seen": 10916968,
      "step": 16690
    },
    {
      "epoch": 8.75,
      "grad_norm": 0.06757723540067673,
      "learning_rate": 0.0006913839709892256,
      "loss": 0.3687,
      "num_input_tokens_seen": 10919944,
      "step": 16695
    },
    {
      "epoch": 8.752620545073375,
      "grad_norm": 0.11957155168056488,
      "learning_rate": 0.0006911726809487561,
      "loss": 0.3633,
      "num_input_tokens_seen": 10923144,
      "step": 16700
    },
    {
      "epoch": 8.75524109014675,
      "grad_norm": 0.2585674226284027,
      "learning_rate": 0.0006909613509171431,
      "loss": 0.6734,
      "num_input_tokens_seen": 10926088,
      "step": 16705
    },
    {
      "epoch": 8.757861635220126,
      "grad_norm": 0.09828614443540573,
      "learning_rate": 0.0006907499809385941,
      "loss": 0.4299,
      "num_input_tokens_seen": 10929416,
      "step": 16710
    },
    {
      "epoch": 8.7604821802935,
      "grad_norm": 0.059811800718307495,
      "learning_rate": 0.0006905385710573252,
      "loss": 0.4863,
      "num_input_tokens_seen": 10934088,
      "step": 16715
    },
    {
      "epoch": 8.763102725366876,
      "grad_norm": 0.06035388261079788,
      "learning_rate": 0.000690327121317561,
      "loss": 0.536,
      "num_input_tokens_seen": 10937256,
      "step": 16720
    },
    {
      "epoch": 8.765723270440251,
      "grad_norm": 0.23954375088214874,
      "learning_rate": 0.0006901156317635342,
      "loss": 0.4511,
      "num_input_tokens_seen": 10940072,
      "step": 16725
    },
    {
      "epoch": 8.768343815513626,
      "grad_norm": 0.08787768334150314,
      "learning_rate": 0.0006899041024394864,
      "loss": 0.5504,
      "num_input_tokens_seen": 10943176,
      "step": 16730
    },
    {
      "epoch": 8.770964360587001,
      "grad_norm": 0.12056270241737366,
      "learning_rate": 0.000689692533389667,
      "loss": 0.5438,
      "num_input_tokens_seen": 10946312,
      "step": 16735
    },
    {
      "epoch": 8.773584905660378,
      "grad_norm": 0.10996964573860168,
      "learning_rate": 0.0006894809246583334,
      "loss": 0.3314,
      "num_input_tokens_seen": 10950792,
      "step": 16740
    },
    {
      "epoch": 8.776205450733752,
      "grad_norm": 0.08318547904491425,
      "learning_rate": 0.0006892692762897523,
      "loss": 0.4694,
      "num_input_tokens_seen": 10952936,
      "step": 16745
    },
    {
      "epoch": 8.778825995807129,
      "grad_norm": 0.08959212899208069,
      "learning_rate": 0.000689057588328198,
      "loss": 0.5328,
      "num_input_tokens_seen": 10957512,
      "step": 16750
    },
    {
      "epoch": 8.781446540880504,
      "grad_norm": 0.1716809868812561,
      "learning_rate": 0.0006888458608179528,
      "loss": 0.4241,
      "num_input_tokens_seen": 10960328,
      "step": 16755
    },
    {
      "epoch": 8.784067085953879,
      "grad_norm": 0.09762338548898697,
      "learning_rate": 0.0006886340938033085,
      "loss": 0.4032,
      "num_input_tokens_seen": 10963944,
      "step": 16760
    },
    {
      "epoch": 8.786687631027254,
      "grad_norm": 0.08337531238794327,
      "learning_rate": 0.0006884222873285632,
      "loss": 0.369,
      "num_input_tokens_seen": 10967272,
      "step": 16765
    },
    {
      "epoch": 8.78930817610063,
      "grad_norm": 0.1368335634469986,
      "learning_rate": 0.0006882104414380254,
      "loss": 0.4259,
      "num_input_tokens_seen": 10970440,
      "step": 16770
    },
    {
      "epoch": 8.791928721174004,
      "grad_norm": 0.04514887556433678,
      "learning_rate": 0.0006879985561760105,
      "loss": 0.373,
      "num_input_tokens_seen": 10974568,
      "step": 16775
    },
    {
      "epoch": 8.79454926624738,
      "grad_norm": 0.13907867670059204,
      "learning_rate": 0.0006877866315868422,
      "loss": 0.5464,
      "num_input_tokens_seen": 10977096,
      "step": 16780
    },
    {
      "epoch": 8.797169811320755,
      "grad_norm": 0.059454403817653656,
      "learning_rate": 0.0006875746677148531,
      "loss": 0.3129,
      "num_input_tokens_seen": 10980200,
      "step": 16785
    },
    {
      "epoch": 8.79979035639413,
      "grad_norm": 0.09765560925006866,
      "learning_rate": 0.0006873626646043835,
      "loss": 0.4781,
      "num_input_tokens_seen": 10983272,
      "step": 16790
    },
    {
      "epoch": 8.802410901467505,
      "grad_norm": 0.08858174085617065,
      "learning_rate": 0.000687150622299782,
      "loss": 0.6561,
      "num_input_tokens_seen": 10986952,
      "step": 16795
    },
    {
      "epoch": 8.80503144654088,
      "grad_norm": 0.05444691330194473,
      "learning_rate": 0.0006869385408454056,
      "loss": 0.3748,
      "num_input_tokens_seen": 10990728,
      "step": 16800
    },
    {
      "epoch": 8.807651991614255,
      "grad_norm": 0.07714727520942688,
      "learning_rate": 0.0006867264202856188,
      "loss": 0.4699,
      "num_input_tokens_seen": 10994472,
      "step": 16805
    },
    {
      "epoch": 8.81027253668763,
      "grad_norm": 0.1153305321931839,
      "learning_rate": 0.0006865142606647954,
      "loss": 0.5501,
      "num_input_tokens_seen": 11001224,
      "step": 16810
    },
    {
      "epoch": 8.812893081761006,
      "grad_norm": 0.07855928689241409,
      "learning_rate": 0.0006863020620273166,
      "loss": 0.4499,
      "num_input_tokens_seen": 11005032,
      "step": 16815
    },
    {
      "epoch": 8.815513626834381,
      "grad_norm": 0.10965020209550858,
      "learning_rate": 0.0006860898244175716,
      "loss": 0.4427,
      "num_input_tokens_seen": 11007624,
      "step": 16820
    },
    {
      "epoch": 8.818134171907756,
      "grad_norm": 0.09224914014339447,
      "learning_rate": 0.0006858775478799586,
      "loss": 0.488,
      "num_input_tokens_seen": 11009704,
      "step": 16825
    },
    {
      "epoch": 8.820754716981131,
      "grad_norm": 0.13287417590618134,
      "learning_rate": 0.0006856652324588831,
      "loss": 0.4182,
      "num_input_tokens_seen": 11013128,
      "step": 16830
    },
    {
      "epoch": 8.823375262054507,
      "grad_norm": 0.07104962319135666,
      "learning_rate": 0.000685452878198759,
      "loss": 0.3859,
      "num_input_tokens_seen": 11016328,
      "step": 16835
    },
    {
      "epoch": 8.825995807127882,
      "grad_norm": 0.07762789726257324,
      "learning_rate": 0.0006852404851440088,
      "loss": 0.6123,
      "num_input_tokens_seen": 11019368,
      "step": 16840
    },
    {
      "epoch": 8.828616352201259,
      "grad_norm": 0.10061904788017273,
      "learning_rate": 0.0006850280533390624,
      "loss": 0.5284,
      "num_input_tokens_seen": 11022696,
      "step": 16845
    },
    {
      "epoch": 8.831236897274634,
      "grad_norm": 0.10638957470655441,
      "learning_rate": 0.0006848155828283581,
      "loss": 0.433,
      "num_input_tokens_seen": 11025992,
      "step": 16850
    },
    {
      "epoch": 8.833857442348009,
      "grad_norm": 0.08741630613803864,
      "learning_rate": 0.0006846030736563422,
      "loss": 0.4097,
      "num_input_tokens_seen": 11028904,
      "step": 16855
    },
    {
      "epoch": 8.836477987421384,
      "grad_norm": 0.05967208370566368,
      "learning_rate": 0.0006843905258674696,
      "loss": 0.4798,
      "num_input_tokens_seen": 11032712,
      "step": 16860
    },
    {
      "epoch": 8.83909853249476,
      "grad_norm": 0.11625681072473526,
      "learning_rate": 0.0006841779395062026,
      "loss": 0.3847,
      "num_input_tokens_seen": 11036392,
      "step": 16865
    },
    {
      "epoch": 8.841719077568134,
      "grad_norm": 0.1287001669406891,
      "learning_rate": 0.0006839653146170116,
      "loss": 0.48,
      "num_input_tokens_seen": 11039368,
      "step": 16870
    },
    {
      "epoch": 8.84433962264151,
      "grad_norm": 0.0989094004034996,
      "learning_rate": 0.0006837526512443758,
      "loss": 0.3627,
      "num_input_tokens_seen": 11042088,
      "step": 16875
    },
    {
      "epoch": 8.846960167714885,
      "grad_norm": 0.10747693479061127,
      "learning_rate": 0.0006835399494327818,
      "loss": 0.5545,
      "num_input_tokens_seen": 11045416,
      "step": 16880
    },
    {
      "epoch": 8.84958071278826,
      "grad_norm": 0.16389691829681396,
      "learning_rate": 0.0006833272092267241,
      "loss": 0.4828,
      "num_input_tokens_seen": 11048552,
      "step": 16885
    },
    {
      "epoch": 8.852201257861635,
      "grad_norm": 0.07721063494682312,
      "learning_rate": 0.000683114430670706,
      "loss": 0.3463,
      "num_input_tokens_seen": 11052072,
      "step": 16890
    },
    {
      "epoch": 8.85482180293501,
      "grad_norm": 0.10860630869865417,
      "learning_rate": 0.0006829016138092378,
      "loss": 0.5623,
      "num_input_tokens_seen": 11055016,
      "step": 16895
    },
    {
      "epoch": 8.857442348008385,
      "grad_norm": 0.07261976599693298,
      "learning_rate": 0.0006826887586868388,
      "loss": 0.3667,
      "num_input_tokens_seen": 11058376,
      "step": 16900
    },
    {
      "epoch": 8.86006289308176,
      "grad_norm": 0.07594235986471176,
      "learning_rate": 0.0006824758653480356,
      "loss": 0.4572,
      "num_input_tokens_seen": 11061384,
      "step": 16905
    },
    {
      "epoch": 8.862683438155136,
      "grad_norm": 0.10833526402711868,
      "learning_rate": 0.0006822629338373632,
      "loss": 0.54,
      "num_input_tokens_seen": 11064232,
      "step": 16910
    },
    {
      "epoch": 8.865303983228511,
      "grad_norm": 0.06353785842657089,
      "learning_rate": 0.0006820499641993644,
      "loss": 0.3813,
      "num_input_tokens_seen": 11067368,
      "step": 16915
    },
    {
      "epoch": 8.867924528301886,
      "grad_norm": 0.1030493751168251,
      "learning_rate": 0.0006818369564785902,
      "loss": 0.4382,
      "num_input_tokens_seen": 11070056,
      "step": 16920
    },
    {
      "epoch": 8.870545073375261,
      "grad_norm": 0.10697447508573532,
      "learning_rate": 0.0006816239107195989,
      "loss": 0.4391,
      "num_input_tokens_seen": 11073768,
      "step": 16925
    },
    {
      "epoch": 8.873165618448636,
      "grad_norm": 0.09360446035861969,
      "learning_rate": 0.000681410826966958,
      "loss": 0.4859,
      "num_input_tokens_seen": 11076744,
      "step": 16930
    },
    {
      "epoch": 8.875786163522012,
      "grad_norm": 0.13142764568328857,
      "learning_rate": 0.0006811977052652414,
      "loss": 0.4489,
      "num_input_tokens_seen": 11079848,
      "step": 16935
    },
    {
      "epoch": 8.878406708595389,
      "grad_norm": 0.09725337475538254,
      "learning_rate": 0.000680984545659032,
      "loss": 0.5039,
      "num_input_tokens_seen": 11082600,
      "step": 16940
    },
    {
      "epoch": 8.881027253668764,
      "grad_norm": 0.09065362066030502,
      "learning_rate": 0.0006807713481929207,
      "loss": 0.4939,
      "num_input_tokens_seen": 11086280,
      "step": 16945
    },
    {
      "epoch": 8.883647798742139,
      "grad_norm": 0.09212078154087067,
      "learning_rate": 0.0006805581129115055,
      "loss": 0.5261,
      "num_input_tokens_seen": 11089352,
      "step": 16950
    },
    {
      "epoch": 8.886268343815514,
      "grad_norm": 0.15307481586933136,
      "learning_rate": 0.0006803448398593931,
      "loss": 0.4345,
      "num_input_tokens_seen": 11092520,
      "step": 16955
    },
    {
      "epoch": 8.88888888888889,
      "grad_norm": 0.10577357560396194,
      "learning_rate": 0.0006801315290811976,
      "loss": 0.4899,
      "num_input_tokens_seen": 11096136,
      "step": 16960
    },
    {
      "epoch": 8.891509433962264,
      "grad_norm": 0.14534611999988556,
      "learning_rate": 0.0006799181806215413,
      "loss": 0.5589,
      "num_input_tokens_seen": 11099656,
      "step": 16965
    },
    {
      "epoch": 8.89412997903564,
      "grad_norm": 0.1589379459619522,
      "learning_rate": 0.0006797047945250543,
      "loss": 0.5687,
      "num_input_tokens_seen": 11102056,
      "step": 16970
    },
    {
      "epoch": 8.896750524109015,
      "grad_norm": 0.08721937239170074,
      "learning_rate": 0.0006794913708363745,
      "loss": 0.328,
      "num_input_tokens_seen": 11104712,
      "step": 16975
    },
    {
      "epoch": 8.89937106918239,
      "grad_norm": 0.06469455361366272,
      "learning_rate": 0.0006792779096001475,
      "loss": 0.2995,
      "num_input_tokens_seen": 11108616,
      "step": 16980
    },
    {
      "epoch": 8.901991614255765,
      "grad_norm": 0.1471095085144043,
      "learning_rate": 0.0006790644108610273,
      "loss": 0.5094,
      "num_input_tokens_seen": 11111688,
      "step": 16985
    },
    {
      "epoch": 8.90461215932914,
      "grad_norm": 0.09628422558307648,
      "learning_rate": 0.0006788508746636751,
      "loss": 0.4093,
      "num_input_tokens_seen": 11114632,
      "step": 16990
    },
    {
      "epoch": 8.907232704402515,
      "grad_norm": 0.09714432805776596,
      "learning_rate": 0.0006786373010527605,
      "loss": 0.4035,
      "num_input_tokens_seen": 11117960,
      "step": 16995
    },
    {
      "epoch": 8.90985324947589,
      "grad_norm": 0.10286284238100052,
      "learning_rate": 0.0006784236900729603,
      "loss": 0.5767,
      "num_input_tokens_seen": 11121384,
      "step": 17000
    },
    {
      "epoch": 8.912473794549266,
      "grad_norm": 0.10855888575315475,
      "learning_rate": 0.0006782100417689599,
      "loss": 0.4494,
      "num_input_tokens_seen": 11124488,
      "step": 17005
    },
    {
      "epoch": 8.915094339622641,
      "grad_norm": 0.09683716297149658,
      "learning_rate": 0.0006779963561854517,
      "loss": 0.4091,
      "num_input_tokens_seen": 11127656,
      "step": 17010
    },
    {
      "epoch": 8.917714884696016,
      "grad_norm": 0.08889781683683395,
      "learning_rate": 0.0006777826333671367,
      "loss": 0.423,
      "num_input_tokens_seen": 11130024,
      "step": 17015
    },
    {
      "epoch": 8.920335429769391,
      "grad_norm": 0.09663182497024536,
      "learning_rate": 0.0006775688733587227,
      "loss": 0.5768,
      "num_input_tokens_seen": 11132872,
      "step": 17020
    },
    {
      "epoch": 8.922955974842766,
      "grad_norm": 0.0638858750462532,
      "learning_rate": 0.0006773550762049265,
      "loss": 0.4412,
      "num_input_tokens_seen": 11136488,
      "step": 17025
    },
    {
      "epoch": 8.925576519916142,
      "grad_norm": 0.06886567175388336,
      "learning_rate": 0.0006771412419504716,
      "loss": 0.3104,
      "num_input_tokens_seen": 11140584,
      "step": 17030
    },
    {
      "epoch": 8.928197064989519,
      "grad_norm": 0.12212996929883957,
      "learning_rate": 0.00067692737064009,
      "loss": 0.4785,
      "num_input_tokens_seen": 11143304,
      "step": 17035
    },
    {
      "epoch": 8.930817610062894,
      "grad_norm": 0.08471644669771194,
      "learning_rate": 0.0006767134623185208,
      "loss": 0.4002,
      "num_input_tokens_seen": 11146792,
      "step": 17040
    },
    {
      "epoch": 8.933438155136269,
      "grad_norm": 0.09208165854215622,
      "learning_rate": 0.0006764995170305114,
      "loss": 0.3299,
      "num_input_tokens_seen": 11149832,
      "step": 17045
    },
    {
      "epoch": 8.936058700209644,
      "grad_norm": 0.07812287658452988,
      "learning_rate": 0.0006762855348208166,
      "loss": 0.3887,
      "num_input_tokens_seen": 11153192,
      "step": 17050
    },
    {
      "epoch": 8.93867924528302,
      "grad_norm": 0.10265739262104034,
      "learning_rate": 0.0006760715157341991,
      "loss": 0.4856,
      "num_input_tokens_seen": 11155912,
      "step": 17055
    },
    {
      "epoch": 8.941299790356394,
      "grad_norm": 0.08859701454639435,
      "learning_rate": 0.0006758574598154292,
      "loss": 0.421,
      "num_input_tokens_seen": 11158472,
      "step": 17060
    },
    {
      "epoch": 8.94392033542977,
      "grad_norm": 0.11014572530984879,
      "learning_rate": 0.0006756433671092852,
      "loss": 0.5476,
      "num_input_tokens_seen": 11161192,
      "step": 17065
    },
    {
      "epoch": 8.946540880503145,
      "grad_norm": 0.10057555884122849,
      "learning_rate": 0.0006754292376605524,
      "loss": 0.3726,
      "num_input_tokens_seen": 11163688,
      "step": 17070
    },
    {
      "epoch": 8.94916142557652,
      "grad_norm": 0.1290062665939331,
      "learning_rate": 0.0006752150715140247,
      "loss": 0.504,
      "num_input_tokens_seen": 11166408,
      "step": 17075
    },
    {
      "epoch": 8.951781970649895,
      "grad_norm": 0.12994341552257538,
      "learning_rate": 0.0006750008687145028,
      "loss": 0.5379,
      "num_input_tokens_seen": 11169640,
      "step": 17080
    },
    {
      "epoch": 8.95440251572327,
      "grad_norm": 0.14140763878822327,
      "learning_rate": 0.0006747866293067958,
      "loss": 0.4053,
      "num_input_tokens_seen": 11172616,
      "step": 17085
    },
    {
      "epoch": 8.957023060796645,
      "grad_norm": 0.06732061505317688,
      "learning_rate": 0.00067457235333572,
      "loss": 0.7045,
      "num_input_tokens_seen": 11175880,
      "step": 17090
    },
    {
      "epoch": 8.95964360587002,
      "grad_norm": 0.08412883430719376,
      "learning_rate": 0.0006743580408460994,
      "loss": 0.581,
      "num_input_tokens_seen": 11178696,
      "step": 17095
    },
    {
      "epoch": 8.962264150943396,
      "grad_norm": 0.09189169853925705,
      "learning_rate": 0.0006741436918827659,
      "loss": 0.516,
      "num_input_tokens_seen": 11182152,
      "step": 17100
    },
    {
      "epoch": 8.964884696016771,
      "grad_norm": 0.08783318847417831,
      "learning_rate": 0.0006739293064905589,
      "loss": 0.5662,
      "num_input_tokens_seen": 11185416,
      "step": 17105
    },
    {
      "epoch": 8.967505241090146,
      "grad_norm": 0.12211249768733978,
      "learning_rate": 0.0006737148847143251,
      "loss": 0.5203,
      "num_input_tokens_seen": 11188392,
      "step": 17110
    },
    {
      "epoch": 8.970125786163521,
      "grad_norm": 0.07118252664804459,
      "learning_rate": 0.0006735004265989195,
      "loss": 0.4553,
      "num_input_tokens_seen": 11191528,
      "step": 17115
    },
    {
      "epoch": 8.972746331236896,
      "grad_norm": 0.06430397927761078,
      "learning_rate": 0.0006732859321892038,
      "loss": 0.3903,
      "num_input_tokens_seen": 11194792,
      "step": 17120
    },
    {
      "epoch": 8.975366876310272,
      "grad_norm": 0.05411052703857422,
      "learning_rate": 0.0006730714015300481,
      "loss": 0.4607,
      "num_input_tokens_seen": 11198600,
      "step": 17125
    },
    {
      "epoch": 8.977987421383649,
      "grad_norm": 0.09111157059669495,
      "learning_rate": 0.0006728568346663299,
      "loss": 0.3224,
      "num_input_tokens_seen": 11201448,
      "step": 17130
    },
    {
      "epoch": 8.980607966457024,
      "grad_norm": 0.10785796493291855,
      "learning_rate": 0.0006726422316429337,
      "loss": 0.3606,
      "num_input_tokens_seen": 11205160,
      "step": 17135
    },
    {
      "epoch": 8.983228511530399,
      "grad_norm": 0.07670523226261139,
      "learning_rate": 0.0006724275925047523,
      "loss": 0.314,
      "num_input_tokens_seen": 11208328,
      "step": 17140
    },
    {
      "epoch": 8.985849056603774,
      "grad_norm": 0.06410373747348785,
      "learning_rate": 0.0006722129172966858,
      "loss": 0.4301,
      "num_input_tokens_seen": 11211848,
      "step": 17145
    },
    {
      "epoch": 8.98846960167715,
      "grad_norm": 0.06081562489271164,
      "learning_rate": 0.0006719982060636416,
      "loss": 0.545,
      "num_input_tokens_seen": 11214376,
      "step": 17150
    },
    {
      "epoch": 8.991090146750524,
      "grad_norm": 0.11274144053459167,
      "learning_rate": 0.000671783458850535,
      "loss": 0.3865,
      "num_input_tokens_seen": 11218376,
      "step": 17155
    },
    {
      "epoch": 8.9937106918239,
      "grad_norm": 0.08587338030338287,
      "learning_rate": 0.0006715686757022886,
      "loss": 0.4542,
      "num_input_tokens_seen": 11221768,
      "step": 17160
    },
    {
      "epoch": 8.996331236897275,
      "grad_norm": 0.11535314470529556,
      "learning_rate": 0.0006713538566638326,
      "loss": 0.4669,
      "num_input_tokens_seen": 11224712,
      "step": 17165
    },
    {
      "epoch": 8.99895178197065,
      "grad_norm": 0.10741789638996124,
      "learning_rate": 0.0006711390017801049,
      "loss": 0.367,
      "num_input_tokens_seen": 11229096,
      "step": 17170
    },
    {
      "epoch": 9.0,
      "eval_loss": 0.4497063159942627,
      "eval_runtime": 13.3622,
      "eval_samples_per_second": 63.463,
      "eval_steps_per_second": 15.866,
      "num_input_tokens_seen": 11229792,
      "step": 17172
    },
    {
      "epoch": 9.001572327044025,
      "grad_norm": 0.09921324998140335,
      "learning_rate": 0.0006709241110960502,
      "loss": 0.2536,
      "num_input_tokens_seen": 11232064,
      "step": 17175
    },
    {
      "epoch": 9.0041928721174,
      "grad_norm": 0.07548262178897858,
      "learning_rate": 0.0006707091846566216,
      "loss": 0.6363,
      "num_input_tokens_seen": 11236960,
      "step": 17180
    },
    {
      "epoch": 9.006813417190775,
      "grad_norm": 0.09363290667533875,
      "learning_rate": 0.0006704942225067791,
      "loss": 0.4776,
      "num_input_tokens_seen": 11239840,
      "step": 17185
    },
    {
      "epoch": 9.00943396226415,
      "grad_norm": 0.12920400500297546,
      "learning_rate": 0.0006702792246914902,
      "loss": 0.4372,
      "num_input_tokens_seen": 11242432,
      "step": 17190
    },
    {
      "epoch": 9.012054507337526,
      "grad_norm": 0.0828733891248703,
      "learning_rate": 0.0006700641912557304,
      "loss": 0.3285,
      "num_input_tokens_seen": 11245312,
      "step": 17195
    },
    {
      "epoch": 9.014675052410901,
      "grad_norm": 0.15654633939266205,
      "learning_rate": 0.0006698491222444818,
      "loss": 0.4251,
      "num_input_tokens_seen": 11249152,
      "step": 17200
    },
    {
      "epoch": 9.017295597484276,
      "grad_norm": 0.21036331355571747,
      "learning_rate": 0.0006696340177027346,
      "loss": 0.5836,
      "num_input_tokens_seen": 11251968,
      "step": 17205
    },
    {
      "epoch": 9.019916142557651,
      "grad_norm": 0.10307511687278748,
      "learning_rate": 0.0006694188776754863,
      "loss": 0.5617,
      "num_input_tokens_seen": 11256224,
      "step": 17210
    },
    {
      "epoch": 9.022536687631026,
      "grad_norm": 0.1221064031124115,
      "learning_rate": 0.0006692037022077415,
      "loss": 0.4563,
      "num_input_tokens_seen": 11258944,
      "step": 17215
    },
    {
      "epoch": 9.025157232704403,
      "grad_norm": 0.10702664405107498,
      "learning_rate": 0.0006689884913445126,
      "loss": 0.4256,
      "num_input_tokens_seen": 11263488,
      "step": 17220
    },
    {
      "epoch": 9.027777777777779,
      "grad_norm": 0.07528714090585709,
      "learning_rate": 0.0006687732451308193,
      "loss": 0.4012,
      "num_input_tokens_seen": 11266560,
      "step": 17225
    },
    {
      "epoch": 9.030398322851154,
      "grad_norm": 0.06658104807138443,
      "learning_rate": 0.0006685579636116886,
      "loss": 0.4375,
      "num_input_tokens_seen": 11270336,
      "step": 17230
    },
    {
      "epoch": 9.033018867924529,
      "grad_norm": 0.11001497507095337,
      "learning_rate": 0.0006683426468321547,
      "loss": 0.4697,
      "num_input_tokens_seen": 11273536,
      "step": 17235
    },
    {
      "epoch": 9.035639412997904,
      "grad_norm": 0.06407836824655533,
      "learning_rate": 0.0006681272948372598,
      "loss": 0.4148,
      "num_input_tokens_seen": 11277408,
      "step": 17240
    },
    {
      "epoch": 9.03825995807128,
      "grad_norm": 0.09073935449123383,
      "learning_rate": 0.000667911907672053,
      "loss": 0.3953,
      "num_input_tokens_seen": 11280576,
      "step": 17245
    },
    {
      "epoch": 9.040880503144654,
      "grad_norm": 0.07629216462373734,
      "learning_rate": 0.0006676964853815906,
      "loss": 0.4673,
      "num_input_tokens_seen": 11283904,
      "step": 17250
    },
    {
      "epoch": 9.04350104821803,
      "grad_norm": 0.07707010954618454,
      "learning_rate": 0.0006674810280109367,
      "loss": 0.407,
      "num_input_tokens_seen": 11286592,
      "step": 17255
    },
    {
      "epoch": 9.046121593291405,
      "grad_norm": 0.10442106425762177,
      "learning_rate": 0.0006672655356051625,
      "loss": 0.3885,
      "num_input_tokens_seen": 11289376,
      "step": 17260
    },
    {
      "epoch": 9.04874213836478,
      "grad_norm": 0.1658402979373932,
      "learning_rate": 0.0006670500082093465,
      "loss": 0.3821,
      "num_input_tokens_seen": 11292320,
      "step": 17265
    },
    {
      "epoch": 9.051362683438155,
      "grad_norm": 0.1074012741446495,
      "learning_rate": 0.0006668344458685745,
      "loss": 0.633,
      "num_input_tokens_seen": 11295392,
      "step": 17270
    },
    {
      "epoch": 9.05398322851153,
      "grad_norm": 0.1314978450536728,
      "learning_rate": 0.00066661884862794,
      "loss": 0.5313,
      "num_input_tokens_seen": 11298656,
      "step": 17275
    },
    {
      "epoch": 9.056603773584905,
      "grad_norm": 0.10844258219003677,
      "learning_rate": 0.000666403216532543,
      "loss": 0.4622,
      "num_input_tokens_seen": 11301824,
      "step": 17280
    },
    {
      "epoch": 9.05922431865828,
      "grad_norm": 0.07349900901317596,
      "learning_rate": 0.0006661875496274916,
      "loss": 0.457,
      "num_input_tokens_seen": 11304352,
      "step": 17285
    },
    {
      "epoch": 9.061844863731656,
      "grad_norm": 0.16320501267910004,
      "learning_rate": 0.0006659718479579008,
      "loss": 0.4827,
      "num_input_tokens_seen": 11306976,
      "step": 17290
    },
    {
      "epoch": 9.064465408805031,
      "grad_norm": 0.17930454015731812,
      "learning_rate": 0.0006657561115688929,
      "loss": 0.4521,
      "num_input_tokens_seen": 11310048,
      "step": 17295
    },
    {
      "epoch": 9.067085953878406,
      "grad_norm": 0.07330519706010818,
      "learning_rate": 0.0006655403405055977,
      "loss": 0.4117,
      "num_input_tokens_seen": 11313984,
      "step": 17300
    },
    {
      "epoch": 9.069706498951781,
      "grad_norm": 0.09679020196199417,
      "learning_rate": 0.0006653245348131517,
      "loss": 0.3188,
      "num_input_tokens_seen": 11317536,
      "step": 17305
    },
    {
      "epoch": 9.072327044025156,
      "grad_norm": 0.06885746866464615,
      "learning_rate": 0.0006651086945366991,
      "loss": 0.3966,
      "num_input_tokens_seen": 11321152,
      "step": 17310
    },
    {
      "epoch": 9.074947589098532,
      "grad_norm": 0.16477549076080322,
      "learning_rate": 0.0006648928197213914,
      "loss": 0.525,
      "num_input_tokens_seen": 11323968,
      "step": 17315
    },
    {
      "epoch": 9.077568134171909,
      "grad_norm": 0.1160600483417511,
      "learning_rate": 0.0006646769104123868,
      "loss": 0.4114,
      "num_input_tokens_seen": 11326496,
      "step": 17320
    },
    {
      "epoch": 9.080188679245284,
      "grad_norm": 0.11671098321676254,
      "learning_rate": 0.0006644609666548513,
      "loss": 0.4237,
      "num_input_tokens_seen": 11329696,
      "step": 17325
    },
    {
      "epoch": 9.082809224318659,
      "grad_norm": 0.058088287711143494,
      "learning_rate": 0.000664244988493958,
      "loss": 0.3794,
      "num_input_tokens_seen": 11333120,
      "step": 17330
    },
    {
      "epoch": 9.085429769392034,
      "grad_norm": 0.07908908277750015,
      "learning_rate": 0.0006640289759748867,
      "loss": 0.4097,
      "num_input_tokens_seen": 11336352,
      "step": 17335
    },
    {
      "epoch": 9.08805031446541,
      "grad_norm": 0.11805152148008347,
      "learning_rate": 0.0006638129291428252,
      "loss": 0.4161,
      "num_input_tokens_seen": 11339968,
      "step": 17340
    },
    {
      "epoch": 9.090670859538784,
      "grad_norm": 0.11320343613624573,
      "learning_rate": 0.0006635968480429677,
      "loss": 0.4061,
      "num_input_tokens_seen": 11343296,
      "step": 17345
    },
    {
      "epoch": 9.09329140461216,
      "grad_norm": 0.06687086820602417,
      "learning_rate": 0.0006633807327205162,
      "loss": 0.5655,
      "num_input_tokens_seen": 11347808,
      "step": 17350
    },
    {
      "epoch": 9.095911949685535,
      "grad_norm": 0.09911977499723434,
      "learning_rate": 0.0006631645832206789,
      "loss": 0.5648,
      "num_input_tokens_seen": 11350880,
      "step": 17355
    },
    {
      "epoch": 9.09853249475891,
      "grad_norm": 0.06868002563714981,
      "learning_rate": 0.0006629483995886727,
      "loss": 0.4015,
      "num_input_tokens_seen": 11354016,
      "step": 17360
    },
    {
      "epoch": 9.101153039832285,
      "grad_norm": 0.07562047988176346,
      "learning_rate": 0.0006627321818697202,
      "loss": 0.3659,
      "num_input_tokens_seen": 11357504,
      "step": 17365
    },
    {
      "epoch": 9.10377358490566,
      "grad_norm": 0.10571056604385376,
      "learning_rate": 0.0006625159301090518,
      "loss": 0.4462,
      "num_input_tokens_seen": 11360512,
      "step": 17370
    },
    {
      "epoch": 9.106394129979035,
      "grad_norm": 0.10745155811309814,
      "learning_rate": 0.0006622996443519047,
      "loss": 0.5363,
      "num_input_tokens_seen": 11363392,
      "step": 17375
    },
    {
      "epoch": 9.10901467505241,
      "grad_norm": 0.09257783740758896,
      "learning_rate": 0.0006620833246435238,
      "loss": 0.4468,
      "num_input_tokens_seen": 11366400,
      "step": 17380
    },
    {
      "epoch": 9.111635220125786,
      "grad_norm": 0.14306671917438507,
      "learning_rate": 0.0006618669710291606,
      "loss": 0.419,
      "num_input_tokens_seen": 11369824,
      "step": 17385
    },
    {
      "epoch": 9.114255765199161,
      "grad_norm": 0.12065180391073227,
      "learning_rate": 0.0006616505835540736,
      "loss": 0.5293,
      "num_input_tokens_seen": 11373376,
      "step": 17390
    },
    {
      "epoch": 9.116876310272536,
      "grad_norm": 0.09031284600496292,
      "learning_rate": 0.0006614341622635287,
      "loss": 0.4504,
      "num_input_tokens_seen": 11376672,
      "step": 17395
    },
    {
      "epoch": 9.119496855345911,
      "grad_norm": 0.06503172963857651,
      "learning_rate": 0.0006612177072027989,
      "loss": 0.5001,
      "num_input_tokens_seen": 11379456,
      "step": 17400
    },
    {
      "epoch": 9.122117400419286,
      "grad_norm": 0.11542099714279175,
      "learning_rate": 0.0006610012184171641,
      "loss": 0.4972,
      "num_input_tokens_seen": 11382560,
      "step": 17405
    },
    {
      "epoch": 9.124737945492662,
      "grad_norm": 0.08596815913915634,
      "learning_rate": 0.0006607846959519109,
      "loss": 0.4302,
      "num_input_tokens_seen": 11385792,
      "step": 17410
    },
    {
      "epoch": 9.127358490566039,
      "grad_norm": 0.09860842674970627,
      "learning_rate": 0.0006605681398523339,
      "loss": 0.3834,
      "num_input_tokens_seen": 11391648,
      "step": 17415
    },
    {
      "epoch": 9.129979035639414,
      "grad_norm": 0.09864714741706848,
      "learning_rate": 0.0006603515501637338,
      "loss": 0.3411,
      "num_input_tokens_seen": 11395744,
      "step": 17420
    },
    {
      "epoch": 9.132599580712789,
      "grad_norm": 0.07299593091011047,
      "learning_rate": 0.0006601349269314187,
      "loss": 0.4118,
      "num_input_tokens_seen": 11398496,
      "step": 17425
    },
    {
      "epoch": 9.135220125786164,
      "grad_norm": 0.14084576070308685,
      "learning_rate": 0.0006599182702007042,
      "loss": 0.3809,
      "num_input_tokens_seen": 11401408,
      "step": 17430
    },
    {
      "epoch": 9.13784067085954,
      "grad_norm": 0.13682013750076294,
      "learning_rate": 0.0006597015800169116,
      "loss": 0.5266,
      "num_input_tokens_seen": 11404448,
      "step": 17435
    },
    {
      "epoch": 9.140461215932914,
      "grad_norm": 0.1603638380765915,
      "learning_rate": 0.0006594848564253705,
      "loss": 0.4324,
      "num_input_tokens_seen": 11407680,
      "step": 17440
    },
    {
      "epoch": 9.14308176100629,
      "grad_norm": 0.07825421541929245,
      "learning_rate": 0.0006592680994714171,
      "loss": 0.4548,
      "num_input_tokens_seen": 11410752,
      "step": 17445
    },
    {
      "epoch": 9.145702306079665,
      "grad_norm": 0.08851741999387741,
      "learning_rate": 0.0006590513092003943,
      "loss": 0.3697,
      "num_input_tokens_seen": 11414432,
      "step": 17450
    },
    {
      "epoch": 9.14832285115304,
      "grad_norm": 0.12444396317005157,
      "learning_rate": 0.0006588344856576521,
      "loss": 0.5517,
      "num_input_tokens_seen": 11417568,
      "step": 17455
    },
    {
      "epoch": 9.150943396226415,
      "grad_norm": 0.22160829603672028,
      "learning_rate": 0.0006586176288885475,
      "loss": 0.5376,
      "num_input_tokens_seen": 11421248,
      "step": 17460
    },
    {
      "epoch": 9.15356394129979,
      "grad_norm": 0.11756367236375809,
      "learning_rate": 0.0006584007389384446,
      "loss": 0.3906,
      "num_input_tokens_seen": 11425472,
      "step": 17465
    },
    {
      "epoch": 9.156184486373165,
      "grad_norm": 0.0671973004937172,
      "learning_rate": 0.0006581838158527144,
      "loss": 0.4714,
      "num_input_tokens_seen": 11428928,
      "step": 17470
    },
    {
      "epoch": 9.15880503144654,
      "grad_norm": 0.11587116122245789,
      "learning_rate": 0.0006579668596767343,
      "loss": 0.5179,
      "num_input_tokens_seen": 11433664,
      "step": 17475
    },
    {
      "epoch": 9.161425576519916,
      "grad_norm": 0.08153840899467468,
      "learning_rate": 0.0006577498704558894,
      "loss": 0.6828,
      "num_input_tokens_seen": 11437024,
      "step": 17480
    },
    {
      "epoch": 9.164046121593291,
      "grad_norm": 0.10225999355316162,
      "learning_rate": 0.0006575328482355715,
      "loss": 0.3881,
      "num_input_tokens_seen": 11442304,
      "step": 17485
    },
    {
      "epoch": 9.166666666666666,
      "grad_norm": 0.09569838643074036,
      "learning_rate": 0.0006573157930611788,
      "loss": 0.4107,
      "num_input_tokens_seen": 11445248,
      "step": 17490
    },
    {
      "epoch": 9.169287211740041,
      "grad_norm": 0.41104790568351746,
      "learning_rate": 0.000657098704978117,
      "loss": 0.5949,
      "num_input_tokens_seen": 11448064,
      "step": 17495
    },
    {
      "epoch": 9.171907756813416,
      "grad_norm": 0.0726969763636589,
      "learning_rate": 0.0006568815840317984,
      "loss": 0.3656,
      "num_input_tokens_seen": 11451232,
      "step": 17500
    },
    {
      "epoch": 9.174528301886792,
      "grad_norm": 0.1125209853053093,
      "learning_rate": 0.0006566644302676422,
      "loss": 0.4215,
      "num_input_tokens_seen": 11455648,
      "step": 17505
    },
    {
      "epoch": 9.177148846960169,
      "grad_norm": 0.11440737545490265,
      "learning_rate": 0.0006564472437310746,
      "loss": 0.553,
      "num_input_tokens_seen": 11459296,
      "step": 17510
    },
    {
      "epoch": 9.179769392033544,
      "grad_norm": 0.092439666390419,
      "learning_rate": 0.0006562300244675283,
      "loss": 0.6389,
      "num_input_tokens_seen": 11462240,
      "step": 17515
    },
    {
      "epoch": 9.182389937106919,
      "grad_norm": 0.1459578573703766,
      "learning_rate": 0.0006560127725224432,
      "loss": 0.5012,
      "num_input_tokens_seen": 11465600,
      "step": 17520
    },
    {
      "epoch": 9.185010482180294,
      "grad_norm": 0.07883819192647934,
      "learning_rate": 0.0006557954879412662,
      "loss": 0.4493,
      "num_input_tokens_seen": 11468896,
      "step": 17525
    },
    {
      "epoch": 9.18763102725367,
      "grad_norm": 0.1549978405237198,
      "learning_rate": 0.0006555781707694506,
      "loss": 0.5621,
      "num_input_tokens_seen": 11471808,
      "step": 17530
    },
    {
      "epoch": 9.190251572327044,
      "grad_norm": 0.1615043580532074,
      "learning_rate": 0.0006553608210524564,
      "loss": 0.3479,
      "num_input_tokens_seen": 11474752,
      "step": 17535
    },
    {
      "epoch": 9.19287211740042,
      "grad_norm": 0.11847086995840073,
      "learning_rate": 0.0006551434388357509,
      "loss": 0.37,
      "num_input_tokens_seen": 11477760,
      "step": 17540
    },
    {
      "epoch": 9.195492662473795,
      "grad_norm": 0.07130977511405945,
      "learning_rate": 0.000654926024164808,
      "loss": 0.3992,
      "num_input_tokens_seen": 11480864,
      "step": 17545
    },
    {
      "epoch": 9.19811320754717,
      "grad_norm": 0.13814890384674072,
      "learning_rate": 0.0006547085770851084,
      "loss": 0.3532,
      "num_input_tokens_seen": 11483776,
      "step": 17550
    },
    {
      "epoch": 9.200733752620545,
      "grad_norm": 0.09872443974018097,
      "learning_rate": 0.0006544910976421395,
      "loss": 0.4568,
      "num_input_tokens_seen": 11487680,
      "step": 17555
    },
    {
      "epoch": 9.20335429769392,
      "grad_norm": 0.09992679953575134,
      "learning_rate": 0.0006542735858813953,
      "loss": 0.4804,
      "num_input_tokens_seen": 11491072,
      "step": 17560
    },
    {
      "epoch": 9.205974842767295,
      "grad_norm": 0.10420292615890503,
      "learning_rate": 0.0006540560418483771,
      "loss": 0.3938,
      "num_input_tokens_seen": 11494432,
      "step": 17565
    },
    {
      "epoch": 9.20859538784067,
      "grad_norm": 0.11380113661289215,
      "learning_rate": 0.0006538384655885925,
      "loss": 0.5155,
      "num_input_tokens_seen": 11498144,
      "step": 17570
    },
    {
      "epoch": 9.211215932914046,
      "grad_norm": 0.05720362812280655,
      "learning_rate": 0.000653620857147556,
      "loss": 0.287,
      "num_input_tokens_seen": 11501728,
      "step": 17575
    },
    {
      "epoch": 9.213836477987421,
      "grad_norm": 0.08183607459068298,
      "learning_rate": 0.0006534032165707887,
      "loss": 0.4908,
      "num_input_tokens_seen": 11505088,
      "step": 17580
    },
    {
      "epoch": 9.216457023060796,
      "grad_norm": 0.1128297820687294,
      "learning_rate": 0.0006531855439038187,
      "loss": 0.5821,
      "num_input_tokens_seen": 11507712,
      "step": 17585
    },
    {
      "epoch": 9.219077568134171,
      "grad_norm": 0.16842740774154663,
      "learning_rate": 0.0006529678391921805,
      "loss": 0.4068,
      "num_input_tokens_seen": 11510560,
      "step": 17590
    },
    {
      "epoch": 9.221698113207546,
      "grad_norm": 0.0784873515367508,
      "learning_rate": 0.0006527501024814155,
      "loss": 0.5921,
      "num_input_tokens_seen": 11513760,
      "step": 17595
    },
    {
      "epoch": 9.224318658280922,
      "grad_norm": 0.1141354888677597,
      "learning_rate": 0.0006525323338170718,
      "loss": 0.5015,
      "num_input_tokens_seen": 11516288,
      "step": 17600
    },
    {
      "epoch": 9.226939203354299,
      "grad_norm": 0.07155995815992355,
      "learning_rate": 0.000652314533244704,
      "loss": 0.3467,
      "num_input_tokens_seen": 11522496,
      "step": 17605
    },
    {
      "epoch": 9.229559748427674,
      "grad_norm": 0.1978759467601776,
      "learning_rate": 0.0006520967008098735,
      "loss": 0.6762,
      "num_input_tokens_seen": 11525216,
      "step": 17610
    },
    {
      "epoch": 9.232180293501049,
      "grad_norm": 0.13497871160507202,
      "learning_rate": 0.0006518788365581485,
      "loss": 0.4671,
      "num_input_tokens_seen": 11527552,
      "step": 17615
    },
    {
      "epoch": 9.234800838574424,
      "grad_norm": 0.07043544948101044,
      "learning_rate": 0.0006516609405351034,
      "loss": 0.431,
      "num_input_tokens_seen": 11530880,
      "step": 17620
    },
    {
      "epoch": 9.2374213836478,
      "grad_norm": 0.10383143275976181,
      "learning_rate": 0.00065144301278632,
      "loss": 0.5234,
      "num_input_tokens_seen": 11534208,
      "step": 17625
    },
    {
      "epoch": 9.240041928721174,
      "grad_norm": 0.09132230281829834,
      "learning_rate": 0.0006512250533573862,
      "loss": 0.4212,
      "num_input_tokens_seen": 11537632,
      "step": 17630
    },
    {
      "epoch": 9.24266247379455,
      "grad_norm": 0.10665081441402435,
      "learning_rate": 0.0006510070622938962,
      "loss": 0.4501,
      "num_input_tokens_seen": 11541024,
      "step": 17635
    },
    {
      "epoch": 9.245283018867925,
      "grad_norm": 0.13817660510540009,
      "learning_rate": 0.0006507890396414516,
      "loss": 0.5724,
      "num_input_tokens_seen": 11544192,
      "step": 17640
    },
    {
      "epoch": 9.2479035639413,
      "grad_norm": 0.17025677859783173,
      "learning_rate": 0.0006505709854456602,
      "loss": 0.5376,
      "num_input_tokens_seen": 11547840,
      "step": 17645
    },
    {
      "epoch": 9.250524109014675,
      "grad_norm": 0.0680096372961998,
      "learning_rate": 0.0006503528997521365,
      "loss": 0.4621,
      "num_input_tokens_seen": 11551552,
      "step": 17650
    },
    {
      "epoch": 9.25314465408805,
      "grad_norm": 0.1308092325925827,
      "learning_rate": 0.0006501347826065017,
      "loss": 0.5902,
      "num_input_tokens_seen": 11554880,
      "step": 17655
    },
    {
      "epoch": 9.255765199161425,
      "grad_norm": 0.06701336801052094,
      "learning_rate": 0.000649916634054383,
      "loss": 0.3869,
      "num_input_tokens_seen": 11557472,
      "step": 17660
    },
    {
      "epoch": 9.2583857442348,
      "grad_norm": 0.1075093224644661,
      "learning_rate": 0.0006496984541414147,
      "loss": 0.4347,
      "num_input_tokens_seen": 11560992,
      "step": 17665
    },
    {
      "epoch": 9.261006289308176,
      "grad_norm": 0.06687513738870621,
      "learning_rate": 0.0006494802429132378,
      "loss": 0.4616,
      "num_input_tokens_seen": 11564480,
      "step": 17670
    },
    {
      "epoch": 9.26362683438155,
      "grad_norm": 0.08685340732336044,
      "learning_rate": 0.0006492620004154993,
      "loss": 0.4016,
      "num_input_tokens_seen": 11567936,
      "step": 17675
    },
    {
      "epoch": 9.266247379454926,
      "grad_norm": 0.13151928782463074,
      "learning_rate": 0.0006490437266938534,
      "loss": 0.4479,
      "num_input_tokens_seen": 11571360,
      "step": 17680
    },
    {
      "epoch": 9.268867924528301,
      "grad_norm": 0.1234053373336792,
      "learning_rate": 0.0006488254217939601,
      "loss": 0.5964,
      "num_input_tokens_seen": 11574336,
      "step": 17685
    },
    {
      "epoch": 9.271488469601676,
      "grad_norm": 0.12167614698410034,
      "learning_rate": 0.0006486070857614863,
      "loss": 0.4188,
      "num_input_tokens_seen": 11576928,
      "step": 17690
    },
    {
      "epoch": 9.274109014675052,
      "grad_norm": 0.17183420062065125,
      "learning_rate": 0.0006483887186421059,
      "loss": 0.4684,
      "num_input_tokens_seen": 11580096,
      "step": 17695
    },
    {
      "epoch": 9.276729559748428,
      "grad_norm": 0.11132844537496567,
      "learning_rate": 0.0006481703204814982,
      "loss": 0.3858,
      "num_input_tokens_seen": 11583872,
      "step": 17700
    },
    {
      "epoch": 9.279350104821804,
      "grad_norm": 0.11440504342317581,
      "learning_rate": 0.00064795189132535,
      "loss": 0.5173,
      "num_input_tokens_seen": 11586496,
      "step": 17705
    },
    {
      "epoch": 9.281970649895179,
      "grad_norm": 0.09776752442121506,
      "learning_rate": 0.000647733431219354,
      "loss": 0.5227,
      "num_input_tokens_seen": 11589280,
      "step": 17710
    },
    {
      "epoch": 9.284591194968554,
      "grad_norm": 0.07628379762172699,
      "learning_rate": 0.0006475149402092097,
      "loss": 0.5019,
      "num_input_tokens_seen": 11592832,
      "step": 17715
    },
    {
      "epoch": 9.28721174004193,
      "grad_norm": 0.04904550686478615,
      "learning_rate": 0.0006472964183406229,
      "loss": 0.3758,
      "num_input_tokens_seen": 11595904,
      "step": 17720
    },
    {
      "epoch": 9.289832285115304,
      "grad_norm": 0.11688225716352463,
      "learning_rate": 0.0006470778656593055,
      "loss": 0.4396,
      "num_input_tokens_seen": 11600672,
      "step": 17725
    },
    {
      "epoch": 9.29245283018868,
      "grad_norm": 0.09693218022584915,
      "learning_rate": 0.0006468592822109769,
      "loss": 0.4017,
      "num_input_tokens_seen": 11603968,
      "step": 17730
    },
    {
      "epoch": 9.295073375262055,
      "grad_norm": 0.11198435723781586,
      "learning_rate": 0.0006466406680413619,
      "loss": 0.4234,
      "num_input_tokens_seen": 11606944,
      "step": 17735
    },
    {
      "epoch": 9.29769392033543,
      "grad_norm": 0.1153387576341629,
      "learning_rate": 0.000646422023196192,
      "loss": 0.46,
      "num_input_tokens_seen": 11610368,
      "step": 17740
    },
    {
      "epoch": 9.300314465408805,
      "grad_norm": 0.11721960455179214,
      "learning_rate": 0.0006462033477212054,
      "loss": 0.4071,
      "num_input_tokens_seen": 11613120,
      "step": 17745
    },
    {
      "epoch": 9.30293501048218,
      "grad_norm": 0.1175728440284729,
      "learning_rate": 0.0006459846416621462,
      "loss": 0.3855,
      "num_input_tokens_seen": 11616352,
      "step": 17750
    },
    {
      "epoch": 9.305555555555555,
      "grad_norm": 0.08122281730175018,
      "learning_rate": 0.0006457659050647657,
      "loss": 0.477,
      "num_input_tokens_seen": 11621536,
      "step": 17755
    },
    {
      "epoch": 9.30817610062893,
      "grad_norm": 0.11414217203855515,
      "learning_rate": 0.0006455471379748208,
      "loss": 0.3972,
      "num_input_tokens_seen": 11624480,
      "step": 17760
    },
    {
      "epoch": 9.310796645702306,
      "grad_norm": 0.10420072078704834,
      "learning_rate": 0.000645328340438075,
      "loss": 0.3788,
      "num_input_tokens_seen": 11627360,
      "step": 17765
    },
    {
      "epoch": 9.31341719077568,
      "grad_norm": 0.07924094051122665,
      "learning_rate": 0.0006451095125002985,
      "loss": 0.3557,
      "num_input_tokens_seen": 11631360,
      "step": 17770
    },
    {
      "epoch": 9.316037735849056,
      "grad_norm": 0.0769018828868866,
      "learning_rate": 0.0006448906542072674,
      "loss": 0.4393,
      "num_input_tokens_seen": 11634720,
      "step": 17775
    },
    {
      "epoch": 9.318658280922431,
      "grad_norm": 0.07767696678638458,
      "learning_rate": 0.0006446717656047645,
      "loss": 0.4704,
      "num_input_tokens_seen": 11638144,
      "step": 17780
    },
    {
      "epoch": 9.321278825995806,
      "grad_norm": 0.10474828630685806,
      "learning_rate": 0.0006444528467385789,
      "loss": 0.4304,
      "num_input_tokens_seen": 11640960,
      "step": 17785
    },
    {
      "epoch": 9.323899371069182,
      "grad_norm": 0.11039204150438309,
      "learning_rate": 0.0006442338976545054,
      "loss": 0.344,
      "num_input_tokens_seen": 11644320,
      "step": 17790
    },
    {
      "epoch": 9.326519916142558,
      "grad_norm": 0.08082909882068634,
      "learning_rate": 0.0006440149183983461,
      "loss": 0.4211,
      "num_input_tokens_seen": 11647008,
      "step": 17795
    },
    {
      "epoch": 9.329140461215934,
      "grad_norm": 0.1269490122795105,
      "learning_rate": 0.0006437959090159093,
      "loss": 0.413,
      "num_input_tokens_seen": 11650880,
      "step": 17800
    },
    {
      "epoch": 9.331761006289309,
      "grad_norm": 0.07723895460367203,
      "learning_rate": 0.0006435768695530085,
      "loss": 0.5035,
      "num_input_tokens_seen": 11654336,
      "step": 17805
    },
    {
      "epoch": 9.334381551362684,
      "grad_norm": 0.11806419491767883,
      "learning_rate": 0.0006433578000554645,
      "loss": 0.4162,
      "num_input_tokens_seen": 11657120,
      "step": 17810
    },
    {
      "epoch": 9.33700209643606,
      "grad_norm": 0.07871129363775253,
      "learning_rate": 0.0006431387005691045,
      "loss": 0.4279,
      "num_input_tokens_seen": 11660480,
      "step": 17815
    },
    {
      "epoch": 9.339622641509434,
      "grad_norm": 0.09035100787878036,
      "learning_rate": 0.0006429195711397611,
      "loss": 0.4709,
      "num_input_tokens_seen": 11663264,
      "step": 17820
    },
    {
      "epoch": 9.34224318658281,
      "grad_norm": 0.09991112351417542,
      "learning_rate": 0.0006427004118132742,
      "loss": 0.4018,
      "num_input_tokens_seen": 11665632,
      "step": 17825
    },
    {
      "epoch": 9.344863731656185,
      "grad_norm": 0.08916081488132477,
      "learning_rate": 0.0006424812226354889,
      "loss": 0.5239,
      "num_input_tokens_seen": 11668544,
      "step": 17830
    },
    {
      "epoch": 9.34748427672956,
      "grad_norm": 0.10467074811458588,
      "learning_rate": 0.0006422620036522574,
      "loss": 0.4186,
      "num_input_tokens_seen": 11672192,
      "step": 17835
    },
    {
      "epoch": 9.350104821802935,
      "grad_norm": 0.14061936736106873,
      "learning_rate": 0.000642042754909438,
      "loss": 0.5259,
      "num_input_tokens_seen": 11675104,
      "step": 17840
    },
    {
      "epoch": 9.35272536687631,
      "grad_norm": 0.07605977356433868,
      "learning_rate": 0.0006418234764528945,
      "loss": 0.4327,
      "num_input_tokens_seen": 11678304,
      "step": 17845
    },
    {
      "epoch": 9.355345911949685,
      "grad_norm": 0.10579611361026764,
      "learning_rate": 0.0006416041683284978,
      "loss": 0.43,
      "num_input_tokens_seen": 11681760,
      "step": 17850
    },
    {
      "epoch": 9.35796645702306,
      "grad_norm": 0.2262016236782074,
      "learning_rate": 0.0006413848305821246,
      "loss": 0.3878,
      "num_input_tokens_seen": 11684480,
      "step": 17855
    },
    {
      "epoch": 9.360587002096436,
      "grad_norm": 0.19863638281822205,
      "learning_rate": 0.0006411654632596578,
      "loss": 0.4669,
      "num_input_tokens_seen": 11687488,
      "step": 17860
    },
    {
      "epoch": 9.36320754716981,
      "grad_norm": 0.1307181715965271,
      "learning_rate": 0.0006409460664069867,
      "loss": 0.4235,
      "num_input_tokens_seen": 11691456,
      "step": 17865
    },
    {
      "epoch": 9.365828092243186,
      "grad_norm": 0.07152563333511353,
      "learning_rate": 0.0006407266400700064,
      "loss": 0.633,
      "num_input_tokens_seen": 11694016,
      "step": 17870
    },
    {
      "epoch": 9.368448637316561,
      "grad_norm": 0.12897250056266785,
      "learning_rate": 0.0006405071842946185,
      "loss": 0.4814,
      "num_input_tokens_seen": 11696960,
      "step": 17875
    },
    {
      "epoch": 9.371069182389936,
      "grad_norm": 0.2176486998796463,
      "learning_rate": 0.0006402876991267308,
      "loss": 0.4011,
      "num_input_tokens_seen": 11700128,
      "step": 17880
    },
    {
      "epoch": 9.373689727463312,
      "grad_norm": 0.050662025809288025,
      "learning_rate": 0.0006400681846122568,
      "loss": 0.3865,
      "num_input_tokens_seen": 11704192,
      "step": 17885
    },
    {
      "epoch": 9.376310272536688,
      "grad_norm": 0.10442917048931122,
      "learning_rate": 0.0006398486407971166,
      "loss": 0.4603,
      "num_input_tokens_seen": 11707552,
      "step": 17890
    },
    {
      "epoch": 9.378930817610064,
      "grad_norm": 0.1678575575351715,
      "learning_rate": 0.0006396290677272361,
      "loss": 0.4225,
      "num_input_tokens_seen": 11714304,
      "step": 17895
    },
    {
      "epoch": 9.381551362683439,
      "grad_norm": 0.12350235134363174,
      "learning_rate": 0.0006394094654485477,
      "loss": 0.4019,
      "num_input_tokens_seen": 11716896,
      "step": 17900
    },
    {
      "epoch": 9.384171907756814,
      "grad_norm": 0.1321907639503479,
      "learning_rate": 0.0006391898340069896,
      "loss": 0.4181,
      "num_input_tokens_seen": 11719680,
      "step": 17905
    },
    {
      "epoch": 9.38679245283019,
      "grad_norm": 0.08040889352560043,
      "learning_rate": 0.0006389701734485061,
      "loss": 0.3973,
      "num_input_tokens_seen": 11723008,
      "step": 17910
    },
    {
      "epoch": 9.389412997903564,
      "grad_norm": 0.0894591435790062,
      "learning_rate": 0.0006387504838190479,
      "loss": 0.3661,
      "num_input_tokens_seen": 11726272,
      "step": 17915
    },
    {
      "epoch": 9.39203354297694,
      "grad_norm": 0.06483687460422516,
      "learning_rate": 0.0006385307651645715,
      "loss": 0.4645,
      "num_input_tokens_seen": 11729664,
      "step": 17920
    },
    {
      "epoch": 9.394654088050315,
      "grad_norm": 0.09466323256492615,
      "learning_rate": 0.0006383110175310393,
      "loss": 0.4578,
      "num_input_tokens_seen": 11733056,
      "step": 17925
    },
    {
      "epoch": 9.39727463312369,
      "grad_norm": 0.2230350524187088,
      "learning_rate": 0.0006380912409644202,
      "loss": 0.4378,
      "num_input_tokens_seen": 11736128,
      "step": 17930
    },
    {
      "epoch": 9.399895178197065,
      "grad_norm": 0.1519586443901062,
      "learning_rate": 0.000637871435510689,
      "loss": 0.6434,
      "num_input_tokens_seen": 11739456,
      "step": 17935
    },
    {
      "epoch": 9.40251572327044,
      "grad_norm": 0.0901544839143753,
      "learning_rate": 0.0006376516012158262,
      "loss": 0.4094,
      "num_input_tokens_seen": 11744256,
      "step": 17940
    },
    {
      "epoch": 9.405136268343815,
      "grad_norm": 0.12098295241594315,
      "learning_rate": 0.000637431738125819,
      "loss": 0.4062,
      "num_input_tokens_seen": 11746976,
      "step": 17945
    },
    {
      "epoch": 9.40775681341719,
      "grad_norm": 0.05334136635065079,
      "learning_rate": 0.00063721184628666,
      "loss": 0.5295,
      "num_input_tokens_seen": 11749920,
      "step": 17950
    },
    {
      "epoch": 9.410377358490566,
      "grad_norm": 0.14483289420604706,
      "learning_rate": 0.0006369919257443484,
      "loss": 0.4755,
      "num_input_tokens_seen": 11752896,
      "step": 17955
    },
    {
      "epoch": 9.41299790356394,
      "grad_norm": 0.228346049785614,
      "learning_rate": 0.0006367719765448886,
      "loss": 0.5137,
      "num_input_tokens_seen": 11755424,
      "step": 17960
    },
    {
      "epoch": 9.415618448637316,
      "grad_norm": 0.1299455463886261,
      "learning_rate": 0.0006365519987342916,
      "loss": 0.4318,
      "num_input_tokens_seen": 11758976,
      "step": 17965
    },
    {
      "epoch": 9.418238993710691,
      "grad_norm": 0.1610158532857895,
      "learning_rate": 0.0006363319923585746,
      "loss": 0.3452,
      "num_input_tokens_seen": 11761248,
      "step": 17970
    },
    {
      "epoch": 9.420859538784066,
      "grad_norm": 0.11372549086809158,
      "learning_rate": 0.0006361119574637599,
      "loss": 0.4142,
      "num_input_tokens_seen": 11764288,
      "step": 17975
    },
    {
      "epoch": 9.423480083857442,
      "grad_norm": 0.09025885909795761,
      "learning_rate": 0.0006358918940958767,
      "loss": 0.677,
      "num_input_tokens_seen": 11767328,
      "step": 17980
    },
    {
      "epoch": 9.426100628930818,
      "grad_norm": 0.06716357171535492,
      "learning_rate": 0.0006356718023009597,
      "loss": 0.4147,
      "num_input_tokens_seen": 11770656,
      "step": 17985
    },
    {
      "epoch": 9.428721174004194,
      "grad_norm": 0.10848965495824814,
      "learning_rate": 0.0006354516821250492,
      "loss": 0.4503,
      "num_input_tokens_seen": 11773760,
      "step": 17990
    },
    {
      "epoch": 9.431341719077569,
      "grad_norm": 0.07309751957654953,
      "learning_rate": 0.0006352315336141923,
      "loss": 0.4246,
      "num_input_tokens_seen": 11776480,
      "step": 17995
    },
    {
      "epoch": 9.433962264150944,
      "grad_norm": 0.09349772334098816,
      "learning_rate": 0.0006350113568144414,
      "loss": 0.3698,
      "num_input_tokens_seen": 11780160,
      "step": 18000
    },
    {
      "epoch": 9.43658280922432,
      "grad_norm": 0.09033869951963425,
      "learning_rate": 0.0006347911517718547,
      "loss": 0.3854,
      "num_input_tokens_seen": 11783200,
      "step": 18005
    },
    {
      "epoch": 9.439203354297694,
      "grad_norm": 0.07467254251241684,
      "learning_rate": 0.0006345709185324972,
      "loss": 0.4191,
      "num_input_tokens_seen": 11786528,
      "step": 18010
    },
    {
      "epoch": 9.44182389937107,
      "grad_norm": 0.0972115695476532,
      "learning_rate": 0.0006343506571424386,
      "loss": 0.4374,
      "num_input_tokens_seen": 11789280,
      "step": 18015
    },
    {
      "epoch": 9.444444444444445,
      "grad_norm": 0.16243408620357513,
      "learning_rate": 0.0006341303676477552,
      "loss": 0.5251,
      "num_input_tokens_seen": 11792608,
      "step": 18020
    },
    {
      "epoch": 9.44706498951782,
      "grad_norm": 0.12154759466648102,
      "learning_rate": 0.0006339100500945293,
      "loss": 0.5138,
      "num_input_tokens_seen": 11794944,
      "step": 18025
    },
    {
      "epoch": 9.449685534591195,
      "grad_norm": 0.10528802126646042,
      "learning_rate": 0.0006336897045288486,
      "loss": 0.3847,
      "num_input_tokens_seen": 11798208,
      "step": 18030
    },
    {
      "epoch": 9.45230607966457,
      "grad_norm": 0.07775964587926865,
      "learning_rate": 0.0006334693309968068,
      "loss": 0.3962,
      "num_input_tokens_seen": 11801440,
      "step": 18035
    },
    {
      "epoch": 9.454926624737945,
      "grad_norm": 0.1770940124988556,
      "learning_rate": 0.0006332489295445038,
      "loss": 0.4715,
      "num_input_tokens_seen": 11804192,
      "step": 18040
    },
    {
      "epoch": 9.45754716981132,
      "grad_norm": 0.10682885348796844,
      "learning_rate": 0.0006330285002180448,
      "loss": 0.526,
      "num_input_tokens_seen": 11807584,
      "step": 18045
    },
    {
      "epoch": 9.460167714884696,
      "grad_norm": 0.07823668420314789,
      "learning_rate": 0.0006328080430635412,
      "loss": 0.4395,
      "num_input_tokens_seen": 11811392,
      "step": 18050
    },
    {
      "epoch": 9.46278825995807,
      "grad_norm": 0.0702851191163063,
      "learning_rate": 0.0006325875581271103,
      "loss": 0.4791,
      "num_input_tokens_seen": 11815872,
      "step": 18055
    },
    {
      "epoch": 9.465408805031446,
      "grad_norm": 0.09323502331972122,
      "learning_rate": 0.0006323670454548749,
      "loss": 0.3489,
      "num_input_tokens_seen": 11818784,
      "step": 18060
    },
    {
      "epoch": 9.468029350104821,
      "grad_norm": 0.3141708970069885,
      "learning_rate": 0.0006321465050929635,
      "loss": 0.5281,
      "num_input_tokens_seen": 11822624,
      "step": 18065
    },
    {
      "epoch": 9.470649895178196,
      "grad_norm": 0.08501982688903809,
      "learning_rate": 0.000631925937087511,
      "loss": 0.4828,
      "num_input_tokens_seen": 11825312,
      "step": 18070
    },
    {
      "epoch": 9.473270440251572,
      "grad_norm": 0.1785096377134323,
      "learning_rate": 0.0006317053414846576,
      "loss": 0.4763,
      "num_input_tokens_seen": 11828224,
      "step": 18075
    },
    {
      "epoch": 9.475890985324948,
      "grad_norm": 0.08855930715799332,
      "learning_rate": 0.0006314847183305492,
      "loss": 0.5232,
      "num_input_tokens_seen": 11831072,
      "step": 18080
    },
    {
      "epoch": 9.478511530398324,
      "grad_norm": 0.14481082558631897,
      "learning_rate": 0.0006312640676713378,
      "loss": 0.5016,
      "num_input_tokens_seen": 11835168,
      "step": 18085
    },
    {
      "epoch": 9.481132075471699,
      "grad_norm": 0.11015097051858902,
      "learning_rate": 0.0006310433895531811,
      "loss": 0.4896,
      "num_input_tokens_seen": 11838048,
      "step": 18090
    },
    {
      "epoch": 9.483752620545074,
      "grad_norm": 0.21265795826911926,
      "learning_rate": 0.0006308226840222422,
      "loss": 0.6117,
      "num_input_tokens_seen": 11842048,
      "step": 18095
    },
    {
      "epoch": 9.48637316561845,
      "grad_norm": 0.06422333419322968,
      "learning_rate": 0.0006306019511246905,
      "loss": 0.4941,
      "num_input_tokens_seen": 11845856,
      "step": 18100
    },
    {
      "epoch": 9.488993710691824,
      "grad_norm": 0.09380452334880829,
      "learning_rate": 0.0006303811909067003,
      "loss": 0.4097,
      "num_input_tokens_seen": 11849152,
      "step": 18105
    },
    {
      "epoch": 9.4916142557652,
      "grad_norm": 0.08202425390481949,
      "learning_rate": 0.0006301604034144527,
      "loss": 0.4352,
      "num_input_tokens_seen": 11852096,
      "step": 18110
    },
    {
      "epoch": 9.494234800838575,
      "grad_norm": 0.0974510908126831,
      "learning_rate": 0.0006299395886941336,
      "loss": 0.4004,
      "num_input_tokens_seen": 11854528,
      "step": 18115
    },
    {
      "epoch": 9.49685534591195,
      "grad_norm": 0.10329703241586685,
      "learning_rate": 0.0006297187467919347,
      "loss": 0.5842,
      "num_input_tokens_seen": 11857440,
      "step": 18120
    },
    {
      "epoch": 9.499475890985325,
      "grad_norm": 0.13958576321601868,
      "learning_rate": 0.0006294978777540542,
      "loss": 0.5369,
      "num_input_tokens_seen": 11860192,
      "step": 18125
    },
    {
      "epoch": 9.5020964360587,
      "grad_norm": 0.09422685950994492,
      "learning_rate": 0.000629276981626695,
      "loss": 0.5056,
      "num_input_tokens_seen": 11863104,
      "step": 18130
    },
    {
      "epoch": 9.504716981132075,
      "grad_norm": 0.1832994818687439,
      "learning_rate": 0.0006290560584560661,
      "loss": 0.515,
      "num_input_tokens_seen": 11865792,
      "step": 18135
    },
    {
      "epoch": 9.50733752620545,
      "grad_norm": 0.1104414239525795,
      "learning_rate": 0.0006288351082883822,
      "loss": 0.4496,
      "num_input_tokens_seen": 11868384,
      "step": 18140
    },
    {
      "epoch": 9.509958071278826,
      "grad_norm": 0.05609915032982826,
      "learning_rate": 0.0006286141311698633,
      "loss": 0.4109,
      "num_input_tokens_seen": 11871808,
      "step": 18145
    },
    {
      "epoch": 9.5125786163522,
      "grad_norm": 0.15331101417541504,
      "learning_rate": 0.0006283931271467355,
      "loss": 0.5701,
      "num_input_tokens_seen": 11874368,
      "step": 18150
    },
    {
      "epoch": 9.515199161425576,
      "grad_norm": 0.11276951432228088,
      "learning_rate": 0.0006281720962652305,
      "loss": 0.369,
      "num_input_tokens_seen": 11877024,
      "step": 18155
    },
    {
      "epoch": 9.517819706498951,
      "grad_norm": 0.11493580788373947,
      "learning_rate": 0.0006279510385715849,
      "loss": 0.4467,
      "num_input_tokens_seen": 11880224,
      "step": 18160
    },
    {
      "epoch": 9.520440251572326,
      "grad_norm": 0.11474643647670746,
      "learning_rate": 0.0006277299541120419,
      "loss": 0.4611,
      "num_input_tokens_seen": 11883712,
      "step": 18165
    },
    {
      "epoch": 9.523060796645701,
      "grad_norm": 0.07989286631345749,
      "learning_rate": 0.0006275088429328499,
      "loss": 0.3489,
      "num_input_tokens_seen": 11888384,
      "step": 18170
    },
    {
      "epoch": 9.525681341719078,
      "grad_norm": 0.10894452780485153,
      "learning_rate": 0.0006272877050802623,
      "loss": 0.4618,
      "num_input_tokens_seen": 11891680,
      "step": 18175
    },
    {
      "epoch": 9.528301886792454,
      "grad_norm": 0.16722072660923004,
      "learning_rate": 0.0006270665406005393,
      "loss": 0.4141,
      "num_input_tokens_seen": 11894592,
      "step": 18180
    },
    {
      "epoch": 9.530922431865829,
      "grad_norm": 0.08117720484733582,
      "learning_rate": 0.0006268453495399455,
      "loss": 0.4584,
      "num_input_tokens_seen": 11897536,
      "step": 18185
    },
    {
      "epoch": 9.533542976939204,
      "grad_norm": 0.08278849720954895,
      "learning_rate": 0.0006266241319447517,
      "loss": 0.4364,
      "num_input_tokens_seen": 11901440,
      "step": 18190
    },
    {
      "epoch": 9.536163522012579,
      "grad_norm": 0.09428711980581284,
      "learning_rate": 0.0006264028878612343,
      "loss": 0.547,
      "num_input_tokens_seen": 11904736,
      "step": 18195
    },
    {
      "epoch": 9.538784067085954,
      "grad_norm": 0.08795401453971863,
      "learning_rate": 0.0006261816173356746,
      "loss": 0.392,
      "num_input_tokens_seen": 11907936,
      "step": 18200
    },
    {
      "epoch": 9.54140461215933,
      "grad_norm": 0.1244240403175354,
      "learning_rate": 0.0006259603204143602,
      "loss": 0.4868,
      "num_input_tokens_seen": 11911072,
      "step": 18205
    },
    {
      "epoch": 9.544025157232705,
      "grad_norm": 0.14303039014339447,
      "learning_rate": 0.0006257389971435839,
      "loss": 0.4431,
      "num_input_tokens_seen": 11914432,
      "step": 18210
    },
    {
      "epoch": 9.54664570230608,
      "grad_norm": 0.23742613196372986,
      "learning_rate": 0.0006255176475696437,
      "loss": 0.526,
      "num_input_tokens_seen": 11917344,
      "step": 18215
    },
    {
      "epoch": 9.549266247379455,
      "grad_norm": 0.0869232565164566,
      "learning_rate": 0.0006252962717388438,
      "loss": 0.3269,
      "num_input_tokens_seen": 11919968,
      "step": 18220
    },
    {
      "epoch": 9.55188679245283,
      "grad_norm": 0.10729998350143433,
      "learning_rate": 0.0006250748696974932,
      "loss": 0.39,
      "num_input_tokens_seen": 11923520,
      "step": 18225
    },
    {
      "epoch": 9.554507337526205,
      "grad_norm": 0.1654437929391861,
      "learning_rate": 0.0006248534414919067,
      "loss": 0.4857,
      "num_input_tokens_seen": 11926304,
      "step": 18230
    },
    {
      "epoch": 9.55712788259958,
      "grad_norm": 0.09545892477035522,
      "learning_rate": 0.0006246319871684047,
      "loss": 0.565,
      "num_input_tokens_seen": 11929248,
      "step": 18235
    },
    {
      "epoch": 9.559748427672956,
      "grad_norm": 0.08924873173236847,
      "learning_rate": 0.000624410506773313,
      "loss": 0.4495,
      "num_input_tokens_seen": 11934464,
      "step": 18240
    },
    {
      "epoch": 9.56236897274633,
      "grad_norm": 0.10965131223201752,
      "learning_rate": 0.0006241890003529626,
      "loss": 0.4402,
      "num_input_tokens_seen": 11938560,
      "step": 18245
    },
    {
      "epoch": 9.564989517819706,
      "grad_norm": 0.09837161749601364,
      "learning_rate": 0.00062396746795369,
      "loss": 0.3659,
      "num_input_tokens_seen": 11941472,
      "step": 18250
    },
    {
      "epoch": 9.567610062893081,
      "grad_norm": 0.08876366168260574,
      "learning_rate": 0.0006237459096218375,
      "loss": 0.5281,
      "num_input_tokens_seen": 11944320,
      "step": 18255
    },
    {
      "epoch": 9.570230607966456,
      "grad_norm": 0.1574099212884903,
      "learning_rate": 0.0006235243254037525,
      "loss": 0.3715,
      "num_input_tokens_seen": 11947808,
      "step": 18260
    },
    {
      "epoch": 9.572851153039831,
      "grad_norm": 0.12324340641498566,
      "learning_rate": 0.0006233027153457878,
      "loss": 0.5706,
      "num_input_tokens_seen": 11950944,
      "step": 18265
    },
    {
      "epoch": 9.575471698113208,
      "grad_norm": 0.09903022646903992,
      "learning_rate": 0.0006230810794943017,
      "loss": 0.5436,
      "num_input_tokens_seen": 11954208,
      "step": 18270
    },
    {
      "epoch": 9.578092243186584,
      "grad_norm": 0.07104337215423584,
      "learning_rate": 0.0006228594178956581,
      "loss": 0.4746,
      "num_input_tokens_seen": 11957728,
      "step": 18275
    },
    {
      "epoch": 9.580712788259959,
      "grad_norm": 0.07393670827150345,
      "learning_rate": 0.0006226377305962259,
      "loss": 0.6651,
      "num_input_tokens_seen": 11960544,
      "step": 18280
    },
    {
      "epoch": 9.583333333333334,
      "grad_norm": 0.09846103936433792,
      "learning_rate": 0.0006224160176423796,
      "loss": 0.4928,
      "num_input_tokens_seen": 11963904,
      "step": 18285
    },
    {
      "epoch": 9.585953878406709,
      "grad_norm": 0.0996265783905983,
      "learning_rate": 0.0006221942790804989,
      "loss": 0.4618,
      "num_input_tokens_seen": 11966784,
      "step": 18290
    },
    {
      "epoch": 9.588574423480084,
      "grad_norm": 0.07782697677612305,
      "learning_rate": 0.0006219725149569691,
      "loss": 0.3941,
      "num_input_tokens_seen": 11970240,
      "step": 18295
    },
    {
      "epoch": 9.59119496855346,
      "grad_norm": 0.09808040410280228,
      "learning_rate": 0.0006217507253181809,
      "loss": 0.4138,
      "num_input_tokens_seen": 11973760,
      "step": 18300
    },
    {
      "epoch": 9.593815513626835,
      "grad_norm": 0.08130444586277008,
      "learning_rate": 0.0006215289102105297,
      "loss": 0.427,
      "num_input_tokens_seen": 11976512,
      "step": 18305
    },
    {
      "epoch": 9.59643605870021,
      "grad_norm": 0.0782051831483841,
      "learning_rate": 0.0006213070696804171,
      "loss": 0.4738,
      "num_input_tokens_seen": 11979904,
      "step": 18310
    },
    {
      "epoch": 9.599056603773585,
      "grad_norm": 0.0894254669547081,
      "learning_rate": 0.0006210852037742495,
      "loss": 0.5246,
      "num_input_tokens_seen": 11983232,
      "step": 18315
    },
    {
      "epoch": 9.60167714884696,
      "grad_norm": 0.13052250444889069,
      "learning_rate": 0.0006208633125384385,
      "loss": 0.3566,
      "num_input_tokens_seen": 11987392,
      "step": 18320
    },
    {
      "epoch": 9.604297693920335,
      "grad_norm": 0.07124185562133789,
      "learning_rate": 0.0006206413960194017,
      "loss": 0.3533,
      "num_input_tokens_seen": 11991712,
      "step": 18325
    },
    {
      "epoch": 9.60691823899371,
      "grad_norm": 0.144295796751976,
      "learning_rate": 0.000620419454263561,
      "loss": 0.4193,
      "num_input_tokens_seen": 11995040,
      "step": 18330
    },
    {
      "epoch": 9.609538784067086,
      "grad_norm": 0.1067834123969078,
      "learning_rate": 0.0006201974873173443,
      "loss": 0.436,
      "num_input_tokens_seen": 11998048,
      "step": 18335
    },
    {
      "epoch": 9.61215932914046,
      "grad_norm": 0.02933245711028576,
      "learning_rate": 0.0006199754952271847,
      "loss": 0.3793,
      "num_input_tokens_seen": 12003200,
      "step": 18340
    },
    {
      "epoch": 9.614779874213836,
      "grad_norm": 0.15115277469158173,
      "learning_rate": 0.00061975347803952,
      "loss": 0.4046,
      "num_input_tokens_seen": 12005728,
      "step": 18345
    },
    {
      "epoch": 9.617400419287211,
      "grad_norm": 0.06963511556386948,
      "learning_rate": 0.000619531435800794,
      "loss": 0.4274,
      "num_input_tokens_seen": 12009280,
      "step": 18350
    },
    {
      "epoch": 9.620020964360586,
      "grad_norm": 0.10655735433101654,
      "learning_rate": 0.0006193093685574553,
      "loss": 0.5329,
      "num_input_tokens_seen": 12013216,
      "step": 18355
    },
    {
      "epoch": 9.622641509433961,
      "grad_norm": 0.1358436644077301,
      "learning_rate": 0.0006190872763559578,
      "loss": 0.4339,
      "num_input_tokens_seen": 12015712,
      "step": 18360
    },
    {
      "epoch": 9.625262054507338,
      "grad_norm": 0.07504354417324066,
      "learning_rate": 0.0006188651592427609,
      "loss": 0.5246,
      "num_input_tokens_seen": 12018688,
      "step": 18365
    },
    {
      "epoch": 9.627882599580714,
      "grad_norm": 0.09055449068546295,
      "learning_rate": 0.0006186430172643287,
      "loss": 0.413,
      "num_input_tokens_seen": 12022464,
      "step": 18370
    },
    {
      "epoch": 9.630503144654089,
      "grad_norm": 0.1916334182024002,
      "learning_rate": 0.0006184208504671307,
      "loss": 0.4564,
      "num_input_tokens_seen": 12025120,
      "step": 18375
    },
    {
      "epoch": 9.633123689727464,
      "grad_norm": 0.11975604295730591,
      "learning_rate": 0.000618198658897642,
      "loss": 0.4858,
      "num_input_tokens_seen": 12028064,
      "step": 18380
    },
    {
      "epoch": 9.635744234800839,
      "grad_norm": 0.10115105658769608,
      "learning_rate": 0.0006179764426023422,
      "loss": 0.5199,
      "num_input_tokens_seen": 12031776,
      "step": 18385
    },
    {
      "epoch": 9.638364779874214,
      "grad_norm": 0.06969182938337326,
      "learning_rate": 0.0006177542016277167,
      "loss": 0.5248,
      "num_input_tokens_seen": 12035008,
      "step": 18390
    },
    {
      "epoch": 9.64098532494759,
      "grad_norm": 0.07954660803079605,
      "learning_rate": 0.0006175319360202556,
      "loss": 0.4959,
      "num_input_tokens_seen": 12039648,
      "step": 18395
    },
    {
      "epoch": 9.643605870020965,
      "grad_norm": 0.09031210094690323,
      "learning_rate": 0.0006173096458264542,
      "loss": 0.5587,
      "num_input_tokens_seen": 12042304,
      "step": 18400
    },
    {
      "epoch": 9.64622641509434,
      "grad_norm": 0.10703155398368835,
      "learning_rate": 0.0006170873310928133,
      "loss": 0.569,
      "num_input_tokens_seen": 12045312,
      "step": 18405
    },
    {
      "epoch": 9.648846960167715,
      "grad_norm": 0.09014683961868286,
      "learning_rate": 0.0006168649918658387,
      "loss": 0.4183,
      "num_input_tokens_seen": 12047936,
      "step": 18410
    },
    {
      "epoch": 9.65146750524109,
      "grad_norm": 0.09519167244434357,
      "learning_rate": 0.0006166426281920407,
      "loss": 0.3761,
      "num_input_tokens_seen": 12050592,
      "step": 18415
    },
    {
      "epoch": 9.654088050314465,
      "grad_norm": 0.18170438706874847,
      "learning_rate": 0.000616420240117936,
      "loss": 0.6106,
      "num_input_tokens_seen": 12053312,
      "step": 18420
    },
    {
      "epoch": 9.65670859538784,
      "grad_norm": 0.11537585407495499,
      "learning_rate": 0.000616197827690045,
      "loss": 0.4203,
      "num_input_tokens_seen": 12055520,
      "step": 18425
    },
    {
      "epoch": 9.659329140461216,
      "grad_norm": 0.1286480575799942,
      "learning_rate": 0.0006159753909548943,
      "loss": 0.4453,
      "num_input_tokens_seen": 12058464,
      "step": 18430
    },
    {
      "epoch": 9.66194968553459,
      "grad_norm": 0.10592709481716156,
      "learning_rate": 0.0006157529299590148,
      "loss": 0.4554,
      "num_input_tokens_seen": 12061152,
      "step": 18435
    },
    {
      "epoch": 9.664570230607966,
      "grad_norm": 0.10899172723293304,
      "learning_rate": 0.000615530444748943,
      "loss": 0.4213,
      "num_input_tokens_seen": 12063968,
      "step": 18440
    },
    {
      "epoch": 9.667190775681341,
      "grad_norm": 0.16421209275722504,
      "learning_rate": 0.0006153079353712201,
      "loss": 0.4683,
      "num_input_tokens_seen": 12066816,
      "step": 18445
    },
    {
      "epoch": 9.669811320754716,
      "grad_norm": 0.10289689898490906,
      "learning_rate": 0.0006150854018723926,
      "loss": 0.5392,
      "num_input_tokens_seen": 12069536,
      "step": 18450
    },
    {
      "epoch": 9.672431865828091,
      "grad_norm": 0.19963973760604858,
      "learning_rate": 0.0006148628442990122,
      "loss": 0.6951,
      "num_input_tokens_seen": 12072608,
      "step": 18455
    },
    {
      "epoch": 9.675052410901468,
      "grad_norm": 0.09191755205392838,
      "learning_rate": 0.0006146402626976351,
      "loss": 0.3339,
      "num_input_tokens_seen": 12076576,
      "step": 18460
    },
    {
      "epoch": 9.677672955974844,
      "grad_norm": 0.20979316532611847,
      "learning_rate": 0.0006144176571148228,
      "loss": 0.5016,
      "num_input_tokens_seen": 12079712,
      "step": 18465
    },
    {
      "epoch": 9.680293501048219,
      "grad_norm": 0.11959478259086609,
      "learning_rate": 0.0006141950275971422,
      "loss": 0.4124,
      "num_input_tokens_seen": 12082944,
      "step": 18470
    },
    {
      "epoch": 9.682914046121594,
      "grad_norm": 0.07882248610258102,
      "learning_rate": 0.0006139723741911644,
      "loss": 0.549,
      "num_input_tokens_seen": 12086752,
      "step": 18475
    },
    {
      "epoch": 9.685534591194969,
      "grad_norm": 0.1076151505112648,
      "learning_rate": 0.0006137496969434664,
      "loss": 0.4742,
      "num_input_tokens_seen": 12089344,
      "step": 18480
    },
    {
      "epoch": 9.688155136268344,
      "grad_norm": 0.062129873782396317,
      "learning_rate": 0.0006135269959006294,
      "loss": 0.5171,
      "num_input_tokens_seen": 12093024,
      "step": 18485
    },
    {
      "epoch": 9.69077568134172,
      "grad_norm": 0.08837348222732544,
      "learning_rate": 0.00061330427110924,
      "loss": 0.6051,
      "num_input_tokens_seen": 12096800,
      "step": 18490
    },
    {
      "epoch": 9.693396226415095,
      "grad_norm": 0.11573343724012375,
      "learning_rate": 0.0006130815226158899,
      "loss": 0.4631,
      "num_input_tokens_seen": 12099712,
      "step": 18495
    },
    {
      "epoch": 9.69601677148847,
      "grad_norm": 0.11936883628368378,
      "learning_rate": 0.0006128587504671753,
      "loss": 0.5037,
      "num_input_tokens_seen": 12103328,
      "step": 18500
    },
    {
      "epoch": 9.698637316561845,
      "grad_norm": 0.08861024677753448,
      "learning_rate": 0.0006126359547096974,
      "loss": 0.3779,
      "num_input_tokens_seen": 12106368,
      "step": 18505
    },
    {
      "epoch": 9.70125786163522,
      "grad_norm": 0.07109015434980392,
      "learning_rate": 0.0006124131353900632,
      "loss": 0.4909,
      "num_input_tokens_seen": 12110528,
      "step": 18510
    },
    {
      "epoch": 9.703878406708595,
      "grad_norm": 0.13681700825691223,
      "learning_rate": 0.0006121902925548833,
      "loss": 0.4138,
      "num_input_tokens_seen": 12113312,
      "step": 18515
    },
    {
      "epoch": 9.70649895178197,
      "grad_norm": 0.13895922899246216,
      "learning_rate": 0.0006119674262507743,
      "loss": 0.3542,
      "num_input_tokens_seen": 12116736,
      "step": 18520
    },
    {
      "epoch": 9.709119496855346,
      "grad_norm": 0.11943043023347855,
      "learning_rate": 0.0006117445365243571,
      "loss": 0.3746,
      "num_input_tokens_seen": 12120064,
      "step": 18525
    },
    {
      "epoch": 9.71174004192872,
      "grad_norm": 0.12290582805871964,
      "learning_rate": 0.0006115216234222575,
      "loss": 0.4788,
      "num_input_tokens_seen": 12123200,
      "step": 18530
    },
    {
      "epoch": 9.714360587002096,
      "grad_norm": 0.1566666066646576,
      "learning_rate": 0.0006112986869911068,
      "loss": 0.5653,
      "num_input_tokens_seen": 12126784,
      "step": 18535
    },
    {
      "epoch": 9.716981132075471,
      "grad_norm": 0.15665756165981293,
      "learning_rate": 0.0006110757272775405,
      "loss": 0.4235,
      "num_input_tokens_seen": 12129280,
      "step": 18540
    },
    {
      "epoch": 9.719601677148846,
      "grad_norm": 0.075978122651577,
      "learning_rate": 0.0006108527443281992,
      "loss": 0.5178,
      "num_input_tokens_seen": 12132672,
      "step": 18545
    },
    {
      "epoch": 9.722222222222221,
      "grad_norm": 0.18455831706523895,
      "learning_rate": 0.0006106297381897284,
      "loss": 0.4672,
      "num_input_tokens_seen": 12135584,
      "step": 18550
    },
    {
      "epoch": 9.724842767295598,
      "grad_norm": 0.11814966797828674,
      "learning_rate": 0.0006104067089087787,
      "loss": 0.486,
      "num_input_tokens_seen": 12137952,
      "step": 18555
    },
    {
      "epoch": 9.727463312368974,
      "grad_norm": 0.0872332975268364,
      "learning_rate": 0.0006101836565320049,
      "loss": 0.3487,
      "num_input_tokens_seen": 12141280,
      "step": 18560
    },
    {
      "epoch": 9.730083857442349,
      "grad_norm": 0.1819542795419693,
      "learning_rate": 0.0006099605811060673,
      "loss": 0.4313,
      "num_input_tokens_seen": 12143872,
      "step": 18565
    },
    {
      "epoch": 9.732704402515724,
      "grad_norm": 0.13712136447429657,
      "learning_rate": 0.0006097374826776307,
      "loss": 0.4369,
      "num_input_tokens_seen": 12146912,
      "step": 18570
    },
    {
      "epoch": 9.735324947589099,
      "grad_norm": 0.1397293359041214,
      "learning_rate": 0.0006095143612933646,
      "loss": 0.3532,
      "num_input_tokens_seen": 12150688,
      "step": 18575
    },
    {
      "epoch": 9.737945492662474,
      "grad_norm": 0.11448570340871811,
      "learning_rate": 0.0006092912169999435,
      "loss": 0.4664,
      "num_input_tokens_seen": 12154048,
      "step": 18580
    },
    {
      "epoch": 9.74056603773585,
      "grad_norm": 0.11588442325592041,
      "learning_rate": 0.0006090680498440465,
      "loss": 0.5944,
      "num_input_tokens_seen": 12157312,
      "step": 18585
    },
    {
      "epoch": 9.743186582809225,
      "grad_norm": 0.06201501935720444,
      "learning_rate": 0.0006088448598723581,
      "loss": 0.4127,
      "num_input_tokens_seen": 12161472,
      "step": 18590
    },
    {
      "epoch": 9.7458071278826,
      "grad_norm": 0.1337028592824936,
      "learning_rate": 0.0006086216471315666,
      "loss": 0.5247,
      "num_input_tokens_seen": 12164384,
      "step": 18595
    },
    {
      "epoch": 9.748427672955975,
      "grad_norm": 0.08832387626171112,
      "learning_rate": 0.0006083984116683659,
      "loss": 0.4596,
      "num_input_tokens_seen": 12167872,
      "step": 18600
    },
    {
      "epoch": 9.75104821802935,
      "grad_norm": 0.09006782621145248,
      "learning_rate": 0.0006081751535294539,
      "loss": 0.5088,
      "num_input_tokens_seen": 12170752,
      "step": 18605
    },
    {
      "epoch": 9.753668763102725,
      "grad_norm": 0.14229482412338257,
      "learning_rate": 0.0006079518727615341,
      "loss": 0.4689,
      "num_input_tokens_seen": 12173728,
      "step": 18610
    },
    {
      "epoch": 9.7562893081761,
      "grad_norm": 0.10854758322238922,
      "learning_rate": 0.0006077285694113141,
      "loss": 0.465,
      "num_input_tokens_seen": 12177024,
      "step": 18615
    },
    {
      "epoch": 9.758909853249476,
      "grad_norm": 0.1652458906173706,
      "learning_rate": 0.0006075052435255062,
      "loss": 0.5387,
      "num_input_tokens_seen": 12180192,
      "step": 18620
    },
    {
      "epoch": 9.76153039832285,
      "grad_norm": 0.04219530522823334,
      "learning_rate": 0.000607281895150828,
      "loss": 0.433,
      "num_input_tokens_seen": 12183488,
      "step": 18625
    },
    {
      "epoch": 9.764150943396226,
      "grad_norm": 0.07464095950126648,
      "learning_rate": 0.0006070585243340013,
      "loss": 0.5525,
      "num_input_tokens_seen": 12186880,
      "step": 18630
    },
    {
      "epoch": 9.766771488469601,
      "grad_norm": 0.08948308974504471,
      "learning_rate": 0.0006068351311217526,
      "loss": 0.3509,
      "num_input_tokens_seen": 12189376,
      "step": 18635
    },
    {
      "epoch": 9.769392033542976,
      "grad_norm": 0.1424150913953781,
      "learning_rate": 0.0006066117155608135,
      "loss": 0.4954,
      "num_input_tokens_seen": 12191616,
      "step": 18640
    },
    {
      "epoch": 9.772012578616351,
      "grad_norm": 0.09261830896139145,
      "learning_rate": 0.0006063882776979196,
      "loss": 0.4371,
      "num_input_tokens_seen": 12195744,
      "step": 18645
    },
    {
      "epoch": 9.774633123689728,
      "grad_norm": 0.1547003984451294,
      "learning_rate": 0.0006061648175798117,
      "loss": 0.5028,
      "num_input_tokens_seen": 12198784,
      "step": 18650
    },
    {
      "epoch": 9.777253668763104,
      "grad_norm": 0.11562471836805344,
      "learning_rate": 0.0006059413352532355,
      "loss": 0.4966,
      "num_input_tokens_seen": 12201408,
      "step": 18655
    },
    {
      "epoch": 9.779874213836479,
      "grad_norm": 0.10039503872394562,
      "learning_rate": 0.0006057178307649402,
      "loss": 0.4842,
      "num_input_tokens_seen": 12204448,
      "step": 18660
    },
    {
      "epoch": 9.782494758909854,
      "grad_norm": 0.10169243067502975,
      "learning_rate": 0.000605494304161681,
      "loss": 0.4511,
      "num_input_tokens_seen": 12207712,
      "step": 18665
    },
    {
      "epoch": 9.785115303983229,
      "grad_norm": 0.150641068816185,
      "learning_rate": 0.0006052707554902169,
      "loss": 0.462,
      "num_input_tokens_seen": 12210624,
      "step": 18670
    },
    {
      "epoch": 9.787735849056604,
      "grad_norm": 0.10658848285675049,
      "learning_rate": 0.0006050471847973117,
      "loss": 0.4769,
      "num_input_tokens_seen": 12214112,
      "step": 18675
    },
    {
      "epoch": 9.79035639412998,
      "grad_norm": 0.08404756337404251,
      "learning_rate": 0.000604823592129734,
      "loss": 0.4661,
      "num_input_tokens_seen": 12218656,
      "step": 18680
    },
    {
      "epoch": 9.792976939203355,
      "grad_norm": 0.11987332999706268,
      "learning_rate": 0.0006045999775342566,
      "loss": 0.4758,
      "num_input_tokens_seen": 12222112,
      "step": 18685
    },
    {
      "epoch": 9.79559748427673,
      "grad_norm": 0.12970446050167084,
      "learning_rate": 0.0006043763410576572,
      "loss": 0.4111,
      "num_input_tokens_seen": 12225216,
      "step": 18690
    },
    {
      "epoch": 9.798218029350105,
      "grad_norm": 0.1054096594452858,
      "learning_rate": 0.0006041526827467182,
      "loss": 0.4479,
      "num_input_tokens_seen": 12228192,
      "step": 18695
    },
    {
      "epoch": 9.80083857442348,
      "grad_norm": 0.08900278061628342,
      "learning_rate": 0.000603929002648226,
      "loss": 0.3422,
      "num_input_tokens_seen": 12232512,
      "step": 18700
    },
    {
      "epoch": 9.803459119496855,
      "grad_norm": 0.1447102427482605,
      "learning_rate": 0.0006037053008089723,
      "loss": 0.5149,
      "num_input_tokens_seen": 12235584,
      "step": 18705
    },
    {
      "epoch": 9.80607966457023,
      "grad_norm": 0.2331349402666092,
      "learning_rate": 0.0006034815772757528,
      "loss": 0.4079,
      "num_input_tokens_seen": 12237920,
      "step": 18710
    },
    {
      "epoch": 9.808700209643606,
      "grad_norm": 0.10977087169885635,
      "learning_rate": 0.0006032578320953678,
      "loss": 0.463,
      "num_input_tokens_seen": 12240736,
      "step": 18715
    },
    {
      "epoch": 9.81132075471698,
      "grad_norm": 0.12761452794075012,
      "learning_rate": 0.0006030340653146224,
      "loss": 0.3136,
      "num_input_tokens_seen": 12243744,
      "step": 18720
    },
    {
      "epoch": 9.813941299790356,
      "grad_norm": 0.09072805196046829,
      "learning_rate": 0.0006028102769803261,
      "loss": 0.3528,
      "num_input_tokens_seen": 12248672,
      "step": 18725
    },
    {
      "epoch": 9.816561844863731,
      "grad_norm": 0.08862102776765823,
      "learning_rate": 0.0006025864671392925,
      "loss": 0.4517,
      "num_input_tokens_seen": 12252224,
      "step": 18730
    },
    {
      "epoch": 9.819182389937106,
      "grad_norm": 0.12607061862945557,
      "learning_rate": 0.0006023626358383406,
      "loss": 0.4924,
      "num_input_tokens_seen": 12254624,
      "step": 18735
    },
    {
      "epoch": 9.821802935010481,
      "grad_norm": 0.08910107612609863,
      "learning_rate": 0.0006021387831242932,
      "loss": 0.3883,
      "num_input_tokens_seen": 12258272,
      "step": 18740
    },
    {
      "epoch": 9.824423480083858,
      "grad_norm": 0.1538870483636856,
      "learning_rate": 0.0006019149090439774,
      "loss": 0.4931,
      "num_input_tokens_seen": 12261088,
      "step": 18745
    },
    {
      "epoch": 9.827044025157234,
      "grad_norm": 0.10061947256326675,
      "learning_rate": 0.0006016910136442254,
      "loss": 0.516,
      "num_input_tokens_seen": 12264544,
      "step": 18750
    },
    {
      "epoch": 9.829664570230609,
      "grad_norm": 0.1311115324497223,
      "learning_rate": 0.0006014670969718735,
      "loss": 0.5747,
      "num_input_tokens_seen": 12267360,
      "step": 18755
    },
    {
      "epoch": 9.832285115303984,
      "grad_norm": 0.16261930763721466,
      "learning_rate": 0.0006012431590737625,
      "loss": 0.5346,
      "num_input_tokens_seen": 12270720,
      "step": 18760
    },
    {
      "epoch": 9.834905660377359,
      "grad_norm": 0.09255875647068024,
      "learning_rate": 0.0006010191999967378,
      "loss": 0.4408,
      "num_input_tokens_seen": 12274112,
      "step": 18765
    },
    {
      "epoch": 9.837526205450734,
      "grad_norm": 0.1579546183347702,
      "learning_rate": 0.0006007952197876487,
      "loss": 0.5374,
      "num_input_tokens_seen": 12277600,
      "step": 18770
    },
    {
      "epoch": 9.84014675052411,
      "grad_norm": 0.10973284393548965,
      "learning_rate": 0.0006005712184933498,
      "loss": 0.4968,
      "num_input_tokens_seen": 12280640,
      "step": 18775
    },
    {
      "epoch": 9.842767295597485,
      "grad_norm": 0.11524796485900879,
      "learning_rate": 0.0006003471961606992,
      "loss": 0.6444,
      "num_input_tokens_seen": 12283776,
      "step": 18780
    },
    {
      "epoch": 9.84538784067086,
      "grad_norm": 0.06816055625677109,
      "learning_rate": 0.0006001231528365601,
      "loss": 0.3457,
      "num_input_tokens_seen": 12287392,
      "step": 18785
    },
    {
      "epoch": 9.848008385744235,
      "grad_norm": 0.10762880742549896,
      "learning_rate": 0.0005998990885677996,
      "loss": 0.6322,
      "num_input_tokens_seen": 12290208,
      "step": 18790
    },
    {
      "epoch": 9.85062893081761,
      "grad_norm": 0.09038179367780685,
      "learning_rate": 0.0005996750034012895,
      "loss": 0.5138,
      "num_input_tokens_seen": 12293120,
      "step": 18795
    },
    {
      "epoch": 9.853249475890985,
      "grad_norm": 0.08918968588113785,
      "learning_rate": 0.0005994508973839058,
      "loss": 0.4507,
      "num_input_tokens_seen": 12300096,
      "step": 18800
    },
    {
      "epoch": 9.85587002096436,
      "grad_norm": 0.06213940307497978,
      "learning_rate": 0.0005992267705625289,
      "loss": 0.3976,
      "num_input_tokens_seen": 12304864,
      "step": 18805
    },
    {
      "epoch": 9.858490566037736,
      "grad_norm": 0.08159282803535461,
      "learning_rate": 0.0005990026229840439,
      "loss": 0.3781,
      "num_input_tokens_seen": 12308512,
      "step": 18810
    },
    {
      "epoch": 9.86111111111111,
      "grad_norm": 0.13079628348350525,
      "learning_rate": 0.0005987784546953394,
      "loss": 0.4642,
      "num_input_tokens_seen": 12311232,
      "step": 18815
    },
    {
      "epoch": 9.863731656184486,
      "grad_norm": 0.08613431453704834,
      "learning_rate": 0.0005985542657433091,
      "loss": 0.2875,
      "num_input_tokens_seen": 12314656,
      "step": 18820
    },
    {
      "epoch": 9.866352201257861,
      "grad_norm": 0.07819254696369171,
      "learning_rate": 0.000598330056174851,
      "loss": 0.4824,
      "num_input_tokens_seen": 12318336,
      "step": 18825
    },
    {
      "epoch": 9.868972746331236,
      "grad_norm": 0.14573787152767181,
      "learning_rate": 0.0005981058260368668,
      "loss": 0.3113,
      "num_input_tokens_seen": 12321056,
      "step": 18830
    },
    {
      "epoch": 9.871593291404611,
      "grad_norm": 0.09572244435548782,
      "learning_rate": 0.0005978815753762632,
      "loss": 0.4386,
      "num_input_tokens_seen": 12324640,
      "step": 18835
    },
    {
      "epoch": 9.874213836477988,
      "grad_norm": 0.23340903222560883,
      "learning_rate": 0.0005976573042399505,
      "loss": 0.4976,
      "num_input_tokens_seen": 12327232,
      "step": 18840
    },
    {
      "epoch": 9.876834381551364,
      "grad_norm": 0.09802135825157166,
      "learning_rate": 0.000597433012674844,
      "loss": 0.5512,
      "num_input_tokens_seen": 12330400,
      "step": 18845
    },
    {
      "epoch": 9.879454926624739,
      "grad_norm": 0.10781625658273697,
      "learning_rate": 0.0005972087007278628,
      "loss": 0.4474,
      "num_input_tokens_seen": 12333184,
      "step": 18850
    },
    {
      "epoch": 9.882075471698114,
      "grad_norm": 0.12019047886133194,
      "learning_rate": 0.0005969843684459305,
      "loss": 0.5335,
      "num_input_tokens_seen": 12335552,
      "step": 18855
    },
    {
      "epoch": 9.884696016771489,
      "grad_norm": 0.11684755235910416,
      "learning_rate": 0.0005967600158759746,
      "loss": 0.4636,
      "num_input_tokens_seen": 12338848,
      "step": 18860
    },
    {
      "epoch": 9.887316561844864,
      "grad_norm": 0.10120731592178345,
      "learning_rate": 0.0005965356430649276,
      "loss": 0.4139,
      "num_input_tokens_seen": 12341568,
      "step": 18865
    },
    {
      "epoch": 9.88993710691824,
      "grad_norm": 0.11025436222553253,
      "learning_rate": 0.0005963112500597251,
      "loss": 0.4422,
      "num_input_tokens_seen": 12344480,
      "step": 18870
    },
    {
      "epoch": 9.892557651991615,
      "grad_norm": 0.07823682576417923,
      "learning_rate": 0.0005960868369073079,
      "loss": 0.443,
      "num_input_tokens_seen": 12347008,
      "step": 18875
    },
    {
      "epoch": 9.89517819706499,
      "grad_norm": 0.07619894295930862,
      "learning_rate": 0.0005958624036546208,
      "loss": 0.408,
      "num_input_tokens_seen": 12350272,
      "step": 18880
    },
    {
      "epoch": 9.897798742138365,
      "grad_norm": 0.12971380352973938,
      "learning_rate": 0.0005956379503486123,
      "loss": 0.4224,
      "num_input_tokens_seen": 12352640,
      "step": 18885
    },
    {
      "epoch": 9.90041928721174,
      "grad_norm": 0.12725858390331268,
      "learning_rate": 0.0005954134770362359,
      "loss": 0.524,
      "num_input_tokens_seen": 12355488,
      "step": 18890
    },
    {
      "epoch": 9.903039832285115,
      "grad_norm": 0.11142300814390182,
      "learning_rate": 0.0005951889837644486,
      "loss": 0.3881,
      "num_input_tokens_seen": 12358336,
      "step": 18895
    },
    {
      "epoch": 9.90566037735849,
      "grad_norm": 0.1047482118010521,
      "learning_rate": 0.0005949644705802116,
      "loss": 0.5243,
      "num_input_tokens_seen": 12361952,
      "step": 18900
    },
    {
      "epoch": 9.908280922431866,
      "grad_norm": 0.21060527861118317,
      "learning_rate": 0.0005947399375304909,
      "loss": 0.4812,
      "num_input_tokens_seen": 12365472,
      "step": 18905
    },
    {
      "epoch": 9.91090146750524,
      "grad_norm": 0.0980786457657814,
      "learning_rate": 0.0005945153846622563,
      "loss": 0.4418,
      "num_input_tokens_seen": 12369792,
      "step": 18910
    },
    {
      "epoch": 9.913522012578616,
      "grad_norm": 0.13385072350502014,
      "learning_rate": 0.0005942908120224815,
      "loss": 0.3749,
      "num_input_tokens_seen": 12373248,
      "step": 18915
    },
    {
      "epoch": 9.916142557651991,
      "grad_norm": 0.10526091605424881,
      "learning_rate": 0.0005940662196581443,
      "loss": 0.3691,
      "num_input_tokens_seen": 12376224,
      "step": 18920
    },
    {
      "epoch": 9.918763102725366,
      "grad_norm": 0.12369983643293381,
      "learning_rate": 0.0005938416076162273,
      "loss": 0.4539,
      "num_input_tokens_seen": 12379424,
      "step": 18925
    },
    {
      "epoch": 9.921383647798741,
      "grad_norm": 0.10041003674268723,
      "learning_rate": 0.0005936169759437165,
      "loss": 0.4537,
      "num_input_tokens_seen": 12382784,
      "step": 18930
    },
    {
      "epoch": 9.924004192872118,
      "grad_norm": 0.08652344346046448,
      "learning_rate": 0.0005933923246876024,
      "loss": 0.4135,
      "num_input_tokens_seen": 12386080,
      "step": 18935
    },
    {
      "epoch": 9.926624737945493,
      "grad_norm": 0.10863910615444183,
      "learning_rate": 0.0005931676538948795,
      "loss": 0.5513,
      "num_input_tokens_seen": 12389600,
      "step": 18940
    },
    {
      "epoch": 9.929245283018869,
      "grad_norm": 0.0982680693268776,
      "learning_rate": 0.0005929429636125463,
      "loss": 0.3994,
      "num_input_tokens_seen": 12392992,
      "step": 18945
    },
    {
      "epoch": 9.931865828092244,
      "grad_norm": 0.09592865407466888,
      "learning_rate": 0.0005927182538876055,
      "loss": 0.4643,
      "num_input_tokens_seen": 12396096,
      "step": 18950
    },
    {
      "epoch": 9.934486373165619,
      "grad_norm": 0.12671855092048645,
      "learning_rate": 0.0005924935247670637,
      "loss": 0.4468,
      "num_input_tokens_seen": 12399488,
      "step": 18955
    },
    {
      "epoch": 9.937106918238994,
      "grad_norm": 0.1591385155916214,
      "learning_rate": 0.0005922687762979317,
      "loss": 0.4242,
      "num_input_tokens_seen": 12403200,
      "step": 18960
    },
    {
      "epoch": 9.93972746331237,
      "grad_norm": 0.10985775291919708,
      "learning_rate": 0.0005920440085272245,
      "loss": 0.5534,
      "num_input_tokens_seen": 12406176,
      "step": 18965
    },
    {
      "epoch": 9.942348008385745,
      "grad_norm": 0.09250757843255997,
      "learning_rate": 0.0005918192215019608,
      "loss": 0.4468,
      "num_input_tokens_seen": 12408800,
      "step": 18970
    },
    {
      "epoch": 9.94496855345912,
      "grad_norm": 0.08908500522375107,
      "learning_rate": 0.0005915944152691633,
      "loss": 0.4276,
      "num_input_tokens_seen": 12413216,
      "step": 18975
    },
    {
      "epoch": 9.947589098532495,
      "grad_norm": 0.13883937895298004,
      "learning_rate": 0.0005913695898758593,
      "loss": 0.3828,
      "num_input_tokens_seen": 12416352,
      "step": 18980
    },
    {
      "epoch": 9.95020964360587,
      "grad_norm": 0.07288207113742828,
      "learning_rate": 0.0005911447453690793,
      "loss": 0.4742,
      "num_input_tokens_seen": 12419552,
      "step": 18985
    },
    {
      "epoch": 9.952830188679245,
      "grad_norm": 0.10142957419157028,
      "learning_rate": 0.0005909198817958585,
      "loss": 0.4711,
      "num_input_tokens_seen": 12423008,
      "step": 18990
    },
    {
      "epoch": 9.95545073375262,
      "grad_norm": 0.08032790571451187,
      "learning_rate": 0.0005906949992032359,
      "loss": 0.5531,
      "num_input_tokens_seen": 12426208,
      "step": 18995
    },
    {
      "epoch": 9.958071278825996,
      "grad_norm": 0.09333956241607666,
      "learning_rate": 0.0005904700976382539,
      "loss": 0.3777,
      "num_input_tokens_seen": 12429664,
      "step": 19000
    },
    {
      "epoch": 9.96069182389937,
      "grad_norm": 0.07187912613153458,
      "learning_rate": 0.0005902451771479596,
      "loss": 0.4673,
      "num_input_tokens_seen": 12432512,
      "step": 19005
    },
    {
      "epoch": 9.963312368972746,
      "grad_norm": 0.1449979543685913,
      "learning_rate": 0.000590020237779404,
      "loss": 0.4604,
      "num_input_tokens_seen": 12435392,
      "step": 19010
    },
    {
      "epoch": 9.965932914046121,
      "grad_norm": 0.15274634957313538,
      "learning_rate": 0.0005897952795796415,
      "loss": 0.5431,
      "num_input_tokens_seen": 12437568,
      "step": 19015
    },
    {
      "epoch": 9.968553459119496,
      "grad_norm": 0.08870681375265121,
      "learning_rate": 0.0005895703025957311,
      "loss": 0.3765,
      "num_input_tokens_seen": 12440224,
      "step": 19020
    },
    {
      "epoch": 9.971174004192871,
      "grad_norm": 0.14063666760921478,
      "learning_rate": 0.0005893453068747352,
      "loss": 0.5419,
      "num_input_tokens_seen": 12443136,
      "step": 19025
    },
    {
      "epoch": 9.973794549266248,
      "grad_norm": 0.16759274899959564,
      "learning_rate": 0.0005891202924637202,
      "loss": 0.422,
      "num_input_tokens_seen": 12445888,
      "step": 19030
    },
    {
      "epoch": 9.976415094339622,
      "grad_norm": 0.09638379514217377,
      "learning_rate": 0.0005888952594097572,
      "loss": 0.5228,
      "num_input_tokens_seen": 12448576,
      "step": 19035
    },
    {
      "epoch": 9.979035639412999,
      "grad_norm": 0.11290077865123749,
      "learning_rate": 0.0005886702077599197,
      "loss": 0.5053,
      "num_input_tokens_seen": 12451168,
      "step": 19040
    },
    {
      "epoch": 9.981656184486374,
      "grad_norm": 0.1025184765458107,
      "learning_rate": 0.0005884451375612865,
      "loss": 0.6467,
      "num_input_tokens_seen": 12456800,
      "step": 19045
    },
    {
      "epoch": 9.984276729559749,
      "grad_norm": 0.1306474804878235,
      "learning_rate": 0.0005882200488609396,
      "loss": 0.3935,
      "num_input_tokens_seen": 12460160,
      "step": 19050
    },
    {
      "epoch": 9.986897274633124,
      "grad_norm": 0.28396520018577576,
      "learning_rate": 0.0005879949417059649,
      "loss": 0.5199,
      "num_input_tokens_seen": 12462272,
      "step": 19055
    },
    {
      "epoch": 9.9895178197065,
      "grad_norm": 0.12802614271640778,
      "learning_rate": 0.0005877698161434522,
      "loss": 0.4496,
      "num_input_tokens_seen": 12464992,
      "step": 19060
    },
    {
      "epoch": 9.992138364779874,
      "grad_norm": 0.2027660310268402,
      "learning_rate": 0.0005875446722204955,
      "loss": 0.4559,
      "num_input_tokens_seen": 12467744,
      "step": 19065
    },
    {
      "epoch": 9.99475890985325,
      "grad_norm": 0.11837278306484222,
      "learning_rate": 0.0005873195099841919,
      "loss": 0.4599,
      "num_input_tokens_seen": 12471456,
      "step": 19070
    },
    {
      "epoch": 9.997379454926625,
      "grad_norm": 0.08684536069631577,
      "learning_rate": 0.0005870943294816431,
      "loss": 0.5168,
      "num_input_tokens_seen": 12474304,
      "step": 19075
    },
    {
      "epoch": 10.0,
      "grad_norm": 0.24899999797344208,
      "learning_rate": 0.0005868691307599543,
      "loss": 0.4111,
      "num_input_tokens_seen": 12476552,
      "step": 19080
    },
    {
      "epoch": 10.0,
      "eval_loss": 0.4492145776748657,
      "eval_runtime": 13.3343,
      "eval_samples_per_second": 63.595,
      "eval_steps_per_second": 15.899,
      "num_input_tokens_seen": 12476552,
      "step": 19080
    },
    {
      "epoch": 10.002620545073375,
      "grad_norm": 0.13090768456459045,
      "learning_rate": 0.0005866439138662343,
      "loss": 0.3749,
      "num_input_tokens_seen": 12479208,
      "step": 19085
    },
    {
      "epoch": 10.00524109014675,
      "grad_norm": 0.12205632030963898,
      "learning_rate": 0.000586418678847596,
      "loss": 0.5448,
      "num_input_tokens_seen": 12483080,
      "step": 19090
    },
    {
      "epoch": 10.007861635220126,
      "grad_norm": 0.09203940629959106,
      "learning_rate": 0.000586193425751156,
      "loss": 0.6796,
      "num_input_tokens_seen": 12486696,
      "step": 19095
    },
    {
      "epoch": 10.0104821802935,
      "grad_norm": 0.06964683532714844,
      "learning_rate": 0.0005859681546240348,
      "loss": 0.4194,
      "num_input_tokens_seen": 12489224,
      "step": 19100
    },
    {
      "epoch": 10.013102725366876,
      "grad_norm": 0.076329305768013,
      "learning_rate": 0.0005857428655133562,
      "loss": 0.4424,
      "num_input_tokens_seen": 12492968,
      "step": 19105
    },
    {
      "epoch": 10.015723270440251,
      "grad_norm": 0.12146171927452087,
      "learning_rate": 0.0005855175584662485,
      "loss": 0.4212,
      "num_input_tokens_seen": 12495976,
      "step": 19110
    },
    {
      "epoch": 10.018343815513626,
      "grad_norm": 0.10849629342556,
      "learning_rate": 0.0005852922335298433,
      "loss": 0.3374,
      "num_input_tokens_seen": 12498696,
      "step": 19115
    },
    {
      "epoch": 10.020964360587001,
      "grad_norm": 0.13967043161392212,
      "learning_rate": 0.0005850668907512757,
      "loss": 0.4445,
      "num_input_tokens_seen": 12501224,
      "step": 19120
    },
    {
      "epoch": 10.023584905660377,
      "grad_norm": 0.07003720104694366,
      "learning_rate": 0.0005848415301776852,
      "loss": 0.4087,
      "num_input_tokens_seen": 12504264,
      "step": 19125
    },
    {
      "epoch": 10.026205450733753,
      "grad_norm": 0.08155110478401184,
      "learning_rate": 0.0005846161518562144,
      "loss": 0.4818,
      "num_input_tokens_seen": 12507240,
      "step": 19130
    },
    {
      "epoch": 10.028825995807129,
      "grad_norm": 0.06522025913000107,
      "learning_rate": 0.00058439075583401,
      "loss": 0.366,
      "num_input_tokens_seen": 12511304,
      "step": 19135
    },
    {
      "epoch": 10.031446540880504,
      "grad_norm": 0.0875580906867981,
      "learning_rate": 0.0005841653421582223,
      "loss": 0.4157,
      "num_input_tokens_seen": 12513960,
      "step": 19140
    },
    {
      "epoch": 10.034067085953879,
      "grad_norm": 0.04801507294178009,
      "learning_rate": 0.0005839399108760052,
      "loss": 0.3854,
      "num_input_tokens_seen": 12517704,
      "step": 19145
    },
    {
      "epoch": 10.036687631027254,
      "grad_norm": 0.09821715205907822,
      "learning_rate": 0.0005837144620345165,
      "loss": 0.3377,
      "num_input_tokens_seen": 12521320,
      "step": 19150
    },
    {
      "epoch": 10.03930817610063,
      "grad_norm": 0.044170819222927094,
      "learning_rate": 0.0005834889956809173,
      "loss": 0.4501,
      "num_input_tokens_seen": 12525448,
      "step": 19155
    },
    {
      "epoch": 10.041928721174004,
      "grad_norm": 0.11986443400382996,
      "learning_rate": 0.0005832635118623726,
      "loss": 0.5002,
      "num_input_tokens_seen": 12529000,
      "step": 19160
    },
    {
      "epoch": 10.04454926624738,
      "grad_norm": 0.08818450570106506,
      "learning_rate": 0.0005830380106260513,
      "loss": 0.4208,
      "num_input_tokens_seen": 12531784,
      "step": 19165
    },
    {
      "epoch": 10.047169811320755,
      "grad_norm": 0.09983228892087936,
      "learning_rate": 0.0005828124920191255,
      "loss": 0.49,
      "num_input_tokens_seen": 12535688,
      "step": 19170
    },
    {
      "epoch": 10.04979035639413,
      "grad_norm": 0.1410636156797409,
      "learning_rate": 0.000582586956088771,
      "loss": 0.405,
      "num_input_tokens_seen": 12538472,
      "step": 19175
    },
    {
      "epoch": 10.052410901467505,
      "grad_norm": 0.15195564925670624,
      "learning_rate": 0.0005823614028821677,
      "loss": 0.6854,
      "num_input_tokens_seen": 12544936,
      "step": 19180
    },
    {
      "epoch": 10.05503144654088,
      "grad_norm": 0.09449819475412369,
      "learning_rate": 0.0005821358324464985,
      "loss": 0.3719,
      "num_input_tokens_seen": 12547816,
      "step": 19185
    },
    {
      "epoch": 10.057651991614255,
      "grad_norm": 0.08750023692846298,
      "learning_rate": 0.0005819102448289501,
      "loss": 0.4856,
      "num_input_tokens_seen": 12551016,
      "step": 19190
    },
    {
      "epoch": 10.06027253668763,
      "grad_norm": 0.08427596092224121,
      "learning_rate": 0.000581684640076713,
      "loss": 0.5099,
      "num_input_tokens_seen": 12554184,
      "step": 19195
    },
    {
      "epoch": 10.062893081761006,
      "grad_norm": 0.07026640325784683,
      "learning_rate": 0.0005814590182369811,
      "loss": 0.4586,
      "num_input_tokens_seen": 12557512,
      "step": 19200
    },
    {
      "epoch": 10.065513626834381,
      "grad_norm": 0.10146703571081161,
      "learning_rate": 0.000581233379356952,
      "loss": 0.5847,
      "num_input_tokens_seen": 12560904,
      "step": 19205
    },
    {
      "epoch": 10.068134171907756,
      "grad_norm": 0.13869936764240265,
      "learning_rate": 0.0005810077234838267,
      "loss": 0.5031,
      "num_input_tokens_seen": 12563368,
      "step": 19210
    },
    {
      "epoch": 10.070754716981131,
      "grad_norm": 0.08980986475944519,
      "learning_rate": 0.0005807820506648097,
      "loss": 0.398,
      "num_input_tokens_seen": 12566728,
      "step": 19215
    },
    {
      "epoch": 10.073375262054507,
      "grad_norm": 0.08664502948522568,
      "learning_rate": 0.0005805563609471095,
      "loss": 0.4838,
      "num_input_tokens_seen": 12570248,
      "step": 19220
    },
    {
      "epoch": 10.075995807127883,
      "grad_norm": 0.20793209969997406,
      "learning_rate": 0.0005803306543779375,
      "loss": 0.5468,
      "num_input_tokens_seen": 12572936,
      "step": 19225
    },
    {
      "epoch": 10.078616352201259,
      "grad_norm": 0.08840114623308182,
      "learning_rate": 0.000580104931004509,
      "loss": 0.5426,
      "num_input_tokens_seen": 12576328,
      "step": 19230
    },
    {
      "epoch": 10.081236897274634,
      "grad_norm": 0.13007421791553497,
      "learning_rate": 0.000579879190874043,
      "loss": 0.394,
      "num_input_tokens_seen": 12579208,
      "step": 19235
    },
    {
      "epoch": 10.083857442348009,
      "grad_norm": 0.09223492443561554,
      "learning_rate": 0.0005796534340337614,
      "loss": 0.4328,
      "num_input_tokens_seen": 12581896,
      "step": 19240
    },
    {
      "epoch": 10.086477987421384,
      "grad_norm": 0.09724000096321106,
      "learning_rate": 0.0005794276605308902,
      "loss": 0.6232,
      "num_input_tokens_seen": 12584840,
      "step": 19245
    },
    {
      "epoch": 10.08909853249476,
      "grad_norm": 0.09199529886245728,
      "learning_rate": 0.0005792018704126586,
      "loss": 0.536,
      "num_input_tokens_seen": 12588840,
      "step": 19250
    },
    {
      "epoch": 10.091719077568134,
      "grad_norm": 0.14245322346687317,
      "learning_rate": 0.0005789760637262992,
      "loss": 0.4795,
      "num_input_tokens_seen": 12591752,
      "step": 19255
    },
    {
      "epoch": 10.09433962264151,
      "grad_norm": 0.15508994460105896,
      "learning_rate": 0.0005787502405190483,
      "loss": 0.5074,
      "num_input_tokens_seen": 12594504,
      "step": 19260
    },
    {
      "epoch": 10.096960167714885,
      "grad_norm": 0.06816551089286804,
      "learning_rate": 0.0005785244008381456,
      "loss": 0.4178,
      "num_input_tokens_seen": 12597544,
      "step": 19265
    },
    {
      "epoch": 10.09958071278826,
      "grad_norm": 0.08810067921876907,
      "learning_rate": 0.0005782985447308341,
      "loss": 0.4333,
      "num_input_tokens_seen": 12600488,
      "step": 19270
    },
    {
      "epoch": 10.102201257861635,
      "grad_norm": 0.08751484751701355,
      "learning_rate": 0.0005780726722443602,
      "loss": 0.4186,
      "num_input_tokens_seen": 12604040,
      "step": 19275
    },
    {
      "epoch": 10.10482180293501,
      "grad_norm": 0.12444750964641571,
      "learning_rate": 0.0005778467834259741,
      "loss": 0.5558,
      "num_input_tokens_seen": 12606984,
      "step": 19280
    },
    {
      "epoch": 10.107442348008385,
      "grad_norm": 0.11159923672676086,
      "learning_rate": 0.000577620878322929,
      "loss": 0.4211,
      "num_input_tokens_seen": 12609800,
      "step": 19285
    },
    {
      "epoch": 10.11006289308176,
      "grad_norm": 0.09044039249420166,
      "learning_rate": 0.0005773949569824816,
      "loss": 0.4409,
      "num_input_tokens_seen": 12614024,
      "step": 19290
    },
    {
      "epoch": 10.112683438155136,
      "grad_norm": 0.15614093840122223,
      "learning_rate": 0.0005771690194518922,
      "loss": 0.4984,
      "num_input_tokens_seen": 12617480,
      "step": 19295
    },
    {
      "epoch": 10.115303983228511,
      "grad_norm": 0.13184402883052826,
      "learning_rate": 0.0005769430657784245,
      "loss": 0.4981,
      "num_input_tokens_seen": 12620904,
      "step": 19300
    },
    {
      "epoch": 10.117924528301886,
      "grad_norm": 0.11030929535627365,
      "learning_rate": 0.0005767170960093449,
      "loss": 0.4786,
      "num_input_tokens_seen": 12623464,
      "step": 19305
    },
    {
      "epoch": 10.120545073375261,
      "grad_norm": 0.09067337960004807,
      "learning_rate": 0.0005764911101919244,
      "loss": 0.584,
      "num_input_tokens_seen": 12626472,
      "step": 19310
    },
    {
      "epoch": 10.123165618448636,
      "grad_norm": 0.11810199916362762,
      "learning_rate": 0.0005762651083734363,
      "loss": 0.2912,
      "num_input_tokens_seen": 12629224,
      "step": 19315
    },
    {
      "epoch": 10.125786163522013,
      "grad_norm": 0.0978640466928482,
      "learning_rate": 0.0005760390906011574,
      "loss": 0.4416,
      "num_input_tokens_seen": 12633032,
      "step": 19320
    },
    {
      "epoch": 10.128406708595389,
      "grad_norm": 0.09784365445375443,
      "learning_rate": 0.0005758130569223684,
      "loss": 0.4383,
      "num_input_tokens_seen": 12636072,
      "step": 19325
    },
    {
      "epoch": 10.131027253668764,
      "grad_norm": 0.09940816462039948,
      "learning_rate": 0.0005755870073843527,
      "loss": 0.4219,
      "num_input_tokens_seen": 12639400,
      "step": 19330
    },
    {
      "epoch": 10.133647798742139,
      "grad_norm": 0.3628006875514984,
      "learning_rate": 0.0005753609420343973,
      "loss": 0.5419,
      "num_input_tokens_seen": 12642920,
      "step": 19335
    },
    {
      "epoch": 10.136268343815514,
      "grad_norm": 0.09070158749818802,
      "learning_rate": 0.0005751348609197929,
      "loss": 0.4069,
      "num_input_tokens_seen": 12646312,
      "step": 19340
    },
    {
      "epoch": 10.13888888888889,
      "grad_norm": 0.11710028350353241,
      "learning_rate": 0.0005749087640878325,
      "loss": 0.5514,
      "num_input_tokens_seen": 12648648,
      "step": 19345
    },
    {
      "epoch": 10.141509433962264,
      "grad_norm": 0.08009880036115646,
      "learning_rate": 0.0005746826515858135,
      "loss": 0.4165,
      "num_input_tokens_seen": 12651176,
      "step": 19350
    },
    {
      "epoch": 10.14412997903564,
      "grad_norm": 0.1051313653588295,
      "learning_rate": 0.0005744565234610356,
      "loss": 0.4283,
      "num_input_tokens_seen": 12653672,
      "step": 19355
    },
    {
      "epoch": 10.146750524109015,
      "grad_norm": 0.20880070328712463,
      "learning_rate": 0.0005742303797608023,
      "loss": 0.4714,
      "num_input_tokens_seen": 12656744,
      "step": 19360
    },
    {
      "epoch": 10.14937106918239,
      "grad_norm": 0.08805745840072632,
      "learning_rate": 0.0005740042205324208,
      "loss": 0.4875,
      "num_input_tokens_seen": 12660168,
      "step": 19365
    },
    {
      "epoch": 10.151991614255765,
      "grad_norm": 0.08734885603189468,
      "learning_rate": 0.0005737780458232004,
      "loss": 0.567,
      "num_input_tokens_seen": 12664424,
      "step": 19370
    },
    {
      "epoch": 10.15461215932914,
      "grad_norm": 0.13429611921310425,
      "learning_rate": 0.0005735518556804546,
      "loss": 0.3957,
      "num_input_tokens_seen": 12667496,
      "step": 19375
    },
    {
      "epoch": 10.157232704402515,
      "grad_norm": 0.09022913873195648,
      "learning_rate": 0.0005733256501514999,
      "loss": 0.4382,
      "num_input_tokens_seen": 12671752,
      "step": 19380
    },
    {
      "epoch": 10.15985324947589,
      "grad_norm": 0.24823369085788727,
      "learning_rate": 0.0005730994292836555,
      "loss": 0.4863,
      "num_input_tokens_seen": 12674408,
      "step": 19385
    },
    {
      "epoch": 10.162473794549266,
      "grad_norm": 0.11297149956226349,
      "learning_rate": 0.0005728731931242445,
      "loss": 0.3999,
      "num_input_tokens_seen": 12676968,
      "step": 19390
    },
    {
      "epoch": 10.165094339622641,
      "grad_norm": 0.0971071645617485,
      "learning_rate": 0.0005726469417205928,
      "loss": 0.3228,
      "num_input_tokens_seen": 12680200,
      "step": 19395
    },
    {
      "epoch": 10.167714884696016,
      "grad_norm": 0.12310314923524857,
      "learning_rate": 0.0005724206751200297,
      "loss": 0.6575,
      "num_input_tokens_seen": 12684104,
      "step": 19400
    },
    {
      "epoch": 10.170335429769391,
      "grad_norm": 0.1525428295135498,
      "learning_rate": 0.0005721943933698879,
      "loss": 0.3846,
      "num_input_tokens_seen": 12687688,
      "step": 19405
    },
    {
      "epoch": 10.172955974842766,
      "grad_norm": 0.06848504394292831,
      "learning_rate": 0.0005719680965175023,
      "loss": 0.3889,
      "num_input_tokens_seen": 12690728,
      "step": 19410
    },
    {
      "epoch": 10.175576519916143,
      "grad_norm": 0.12570801377296448,
      "learning_rate": 0.000571741784610212,
      "loss": 0.3995,
      "num_input_tokens_seen": 12694568,
      "step": 19415
    },
    {
      "epoch": 10.178197064989519,
      "grad_norm": 0.21647138893604279,
      "learning_rate": 0.0005715154576953589,
      "loss": 0.529,
      "num_input_tokens_seen": 12697768,
      "step": 19420
    },
    {
      "epoch": 10.180817610062894,
      "grad_norm": 0.09604661166667938,
      "learning_rate": 0.0005712891158202879,
      "loss": 0.4657,
      "num_input_tokens_seen": 12700840,
      "step": 19425
    },
    {
      "epoch": 10.183438155136269,
      "grad_norm": 0.10987897217273712,
      "learning_rate": 0.0005710627590323473,
      "loss": 0.452,
      "num_input_tokens_seen": 12703784,
      "step": 19430
    },
    {
      "epoch": 10.186058700209644,
      "grad_norm": 0.07035595923662186,
      "learning_rate": 0.0005708363873788882,
      "loss": 0.4195,
      "num_input_tokens_seen": 12707240,
      "step": 19435
    },
    {
      "epoch": 10.18867924528302,
      "grad_norm": 0.0862865075469017,
      "learning_rate": 0.0005706100009072649,
      "loss": 0.3637,
      "num_input_tokens_seen": 12710312,
      "step": 19440
    },
    {
      "epoch": 10.191299790356394,
      "grad_norm": 0.10582037270069122,
      "learning_rate": 0.000570383599664835,
      "loss": 0.5477,
      "num_input_tokens_seen": 12713640,
      "step": 19445
    },
    {
      "epoch": 10.19392033542977,
      "grad_norm": 0.2094937264919281,
      "learning_rate": 0.0005701571836989591,
      "loss": 0.4062,
      "num_input_tokens_seen": 12716616,
      "step": 19450
    },
    {
      "epoch": 10.196540880503145,
      "grad_norm": 0.11110842972993851,
      "learning_rate": 0.0005699307530570008,
      "loss": 0.3903,
      "num_input_tokens_seen": 12719528,
      "step": 19455
    },
    {
      "epoch": 10.19916142557652,
      "grad_norm": 0.1786496490240097,
      "learning_rate": 0.0005697043077863267,
      "loss": 0.3781,
      "num_input_tokens_seen": 12722952,
      "step": 19460
    },
    {
      "epoch": 10.201781970649895,
      "grad_norm": 0.07159971445798874,
      "learning_rate": 0.0005694778479343065,
      "loss": 0.3943,
      "num_input_tokens_seen": 12726440,
      "step": 19465
    },
    {
      "epoch": 10.20440251572327,
      "grad_norm": 0.13586801290512085,
      "learning_rate": 0.0005692513735483134,
      "loss": 0.4936,
      "num_input_tokens_seen": 12729096,
      "step": 19470
    },
    {
      "epoch": 10.207023060796645,
      "grad_norm": 0.2257969081401825,
      "learning_rate": 0.0005690248846757228,
      "loss": 0.4929,
      "num_input_tokens_seen": 12731976,
      "step": 19475
    },
    {
      "epoch": 10.20964360587002,
      "grad_norm": 0.14434288442134857,
      "learning_rate": 0.0005687983813639139,
      "loss": 0.4673,
      "num_input_tokens_seen": 12734696,
      "step": 19480
    },
    {
      "epoch": 10.212264150943396,
      "grad_norm": 0.12649142742156982,
      "learning_rate": 0.0005685718636602685,
      "loss": 0.4794,
      "num_input_tokens_seen": 12738184,
      "step": 19485
    },
    {
      "epoch": 10.214884696016771,
      "grad_norm": 0.07022178918123245,
      "learning_rate": 0.0005683453316121716,
      "loss": 0.3465,
      "num_input_tokens_seen": 12741224,
      "step": 19490
    },
    {
      "epoch": 10.217505241090146,
      "grad_norm": 0.08220350742340088,
      "learning_rate": 0.0005681187852670111,
      "loss": 0.3989,
      "num_input_tokens_seen": 12743976,
      "step": 19495
    },
    {
      "epoch": 10.220125786163521,
      "grad_norm": 0.10046268254518509,
      "learning_rate": 0.0005678922246721777,
      "loss": 0.5169,
      "num_input_tokens_seen": 12747464,
      "step": 19500
    },
    {
      "epoch": 10.222746331236896,
      "grad_norm": 0.12489614635705948,
      "learning_rate": 0.0005676656498750656,
      "loss": 0.4929,
      "num_input_tokens_seen": 12750440,
      "step": 19505
    },
    {
      "epoch": 10.225366876310272,
      "grad_norm": 0.10551543533802032,
      "learning_rate": 0.0005674390609230715,
      "loss": 0.5071,
      "num_input_tokens_seen": 12753448,
      "step": 19510
    },
    {
      "epoch": 10.227987421383649,
      "grad_norm": 0.09841340035200119,
      "learning_rate": 0.0005672124578635951,
      "loss": 0.4528,
      "num_input_tokens_seen": 12757352,
      "step": 19515
    },
    {
      "epoch": 10.230607966457024,
      "grad_norm": 0.0606299452483654,
      "learning_rate": 0.0005669858407440394,
      "loss": 0.3259,
      "num_input_tokens_seen": 12760968,
      "step": 19520
    },
    {
      "epoch": 10.233228511530399,
      "grad_norm": 0.13574832677841187,
      "learning_rate": 0.00056675920961181,
      "loss": 0.4761,
      "num_input_tokens_seen": 12764008,
      "step": 19525
    },
    {
      "epoch": 10.235849056603774,
      "grad_norm": 0.10655537247657776,
      "learning_rate": 0.0005665325645143155,
      "loss": 0.601,
      "num_input_tokens_seen": 12766600,
      "step": 19530
    },
    {
      "epoch": 10.23846960167715,
      "grad_norm": 0.1499183624982834,
      "learning_rate": 0.0005663059054989679,
      "loss": 0.3927,
      "num_input_tokens_seen": 12769608,
      "step": 19535
    },
    {
      "epoch": 10.241090146750524,
      "grad_norm": 0.07966861128807068,
      "learning_rate": 0.0005660792326131809,
      "loss": 0.5102,
      "num_input_tokens_seen": 12773608,
      "step": 19540
    },
    {
      "epoch": 10.2437106918239,
      "grad_norm": 0.08852599561214447,
      "learning_rate": 0.0005658525459043725,
      "loss": 0.3963,
      "num_input_tokens_seen": 12776296,
      "step": 19545
    },
    {
      "epoch": 10.246331236897275,
      "grad_norm": 0.0807780772447586,
      "learning_rate": 0.000565625845419963,
      "loss": 0.4011,
      "num_input_tokens_seen": 12778984,
      "step": 19550
    },
    {
      "epoch": 10.24895178197065,
      "grad_norm": 0.1763089895248413,
      "learning_rate": 0.000565399131207375,
      "loss": 0.5048,
      "num_input_tokens_seen": 12782248,
      "step": 19555
    },
    {
      "epoch": 10.251572327044025,
      "grad_norm": 0.08245331794023514,
      "learning_rate": 0.000565172403314035,
      "loss": 0.3654,
      "num_input_tokens_seen": 12785032,
      "step": 19560
    },
    {
      "epoch": 10.2541928721174,
      "grad_norm": 0.08305733650922775,
      "learning_rate": 0.0005649456617873717,
      "loss": 0.4569,
      "num_input_tokens_seen": 12787848,
      "step": 19565
    },
    {
      "epoch": 10.256813417190775,
      "grad_norm": 0.16230526566505432,
      "learning_rate": 0.0005647189066748169,
      "loss": 0.3681,
      "num_input_tokens_seen": 12790440,
      "step": 19570
    },
    {
      "epoch": 10.25943396226415,
      "grad_norm": 0.17989946901798248,
      "learning_rate": 0.0005644921380238052,
      "loss": 0.6107,
      "num_input_tokens_seen": 12793032,
      "step": 19575
    },
    {
      "epoch": 10.262054507337526,
      "grad_norm": 0.07400030642747879,
      "learning_rate": 0.000564265355881774,
      "loss": 0.6083,
      "num_input_tokens_seen": 12796392,
      "step": 19580
    },
    {
      "epoch": 10.264675052410901,
      "grad_norm": 0.16118153929710388,
      "learning_rate": 0.0005640385602961634,
      "loss": 0.4806,
      "num_input_tokens_seen": 12799240,
      "step": 19585
    },
    {
      "epoch": 10.267295597484276,
      "grad_norm": 0.12529245018959045,
      "learning_rate": 0.0005638117513144168,
      "loss": 0.4535,
      "num_input_tokens_seen": 12803752,
      "step": 19590
    },
    {
      "epoch": 10.269916142557651,
      "grad_norm": 0.11585982888936996,
      "learning_rate": 0.0005635849289839797,
      "loss": 0.362,
      "num_input_tokens_seen": 12806568,
      "step": 19595
    },
    {
      "epoch": 10.272536687631026,
      "grad_norm": 0.1387808471918106,
      "learning_rate": 0.000563358093352301,
      "loss": 0.3741,
      "num_input_tokens_seen": 12811464,
      "step": 19600
    },
    {
      "epoch": 10.275157232704402,
      "grad_norm": 0.06713072210550308,
      "learning_rate": 0.0005631312444668318,
      "loss": 0.5307,
      "num_input_tokens_seen": 12815880,
      "step": 19605
    },
    {
      "epoch": 10.277777777777779,
      "grad_norm": 0.17003357410430908,
      "learning_rate": 0.0005629043823750266,
      "loss": 0.4673,
      "num_input_tokens_seen": 12818632,
      "step": 19610
    },
    {
      "epoch": 10.280398322851154,
      "grad_norm": 0.05373126268386841,
      "learning_rate": 0.0005626775071243423,
      "loss": 0.373,
      "num_input_tokens_seen": 12821736,
      "step": 19615
    },
    {
      "epoch": 10.283018867924529,
      "grad_norm": 0.08947445452213287,
      "learning_rate": 0.0005624506187622384,
      "loss": 0.4943,
      "num_input_tokens_seen": 12824584,
      "step": 19620
    },
    {
      "epoch": 10.285639412997904,
      "grad_norm": 0.09395186603069305,
      "learning_rate": 0.0005622237173361777,
      "loss": 0.5241,
      "num_input_tokens_seen": 12827624,
      "step": 19625
    },
    {
      "epoch": 10.28825995807128,
      "grad_norm": 0.12280584126710892,
      "learning_rate": 0.0005619968028936252,
      "loss": 0.457,
      "num_input_tokens_seen": 12830440,
      "step": 19630
    },
    {
      "epoch": 10.290880503144654,
      "grad_norm": 0.07179620116949081,
      "learning_rate": 0.0005617698754820489,
      "loss": 0.3549,
      "num_input_tokens_seen": 12836456,
      "step": 19635
    },
    {
      "epoch": 10.29350104821803,
      "grad_norm": 0.11961110681295395,
      "learning_rate": 0.0005615429351489192,
      "loss": 0.5724,
      "num_input_tokens_seen": 12839432,
      "step": 19640
    },
    {
      "epoch": 10.296121593291405,
      "grad_norm": 0.1300312578678131,
      "learning_rate": 0.0005613159819417095,
      "loss": 0.3614,
      "num_input_tokens_seen": 12843624,
      "step": 19645
    },
    {
      "epoch": 10.29874213836478,
      "grad_norm": 0.1495971828699112,
      "learning_rate": 0.0005610890159078961,
      "loss": 0.4052,
      "num_input_tokens_seen": 12845960,
      "step": 19650
    },
    {
      "epoch": 10.301362683438155,
      "grad_norm": 0.10352974385023117,
      "learning_rate": 0.0005608620370949575,
      "loss": 0.4414,
      "num_input_tokens_seen": 12850216,
      "step": 19655
    },
    {
      "epoch": 10.30398322851153,
      "grad_norm": 0.1354631632566452,
      "learning_rate": 0.000560635045550375,
      "loss": 0.4042,
      "num_input_tokens_seen": 12853064,
      "step": 19660
    },
    {
      "epoch": 10.306603773584905,
      "grad_norm": 0.11839047074317932,
      "learning_rate": 0.0005604080413216328,
      "loss": 0.3924,
      "num_input_tokens_seen": 12855912,
      "step": 19665
    },
    {
      "epoch": 10.30922431865828,
      "grad_norm": 0.12143239378929138,
      "learning_rate": 0.0005601810244562175,
      "loss": 0.4371,
      "num_input_tokens_seen": 12858824,
      "step": 19670
    },
    {
      "epoch": 10.311844863731656,
      "grad_norm": 0.16849280893802643,
      "learning_rate": 0.0005599539950016184,
      "loss": 0.5549,
      "num_input_tokens_seen": 12861416,
      "step": 19675
    },
    {
      "epoch": 10.314465408805031,
      "grad_norm": 0.1401749700307846,
      "learning_rate": 0.0005597269530053277,
      "loss": 0.4506,
      "num_input_tokens_seen": 12864968,
      "step": 19680
    },
    {
      "epoch": 10.317085953878406,
      "grad_norm": 0.13520975410938263,
      "learning_rate": 0.0005594998985148398,
      "loss": 0.4428,
      "num_input_tokens_seen": 12868040,
      "step": 19685
    },
    {
      "epoch": 10.319706498951781,
      "grad_norm": 0.08701015263795853,
      "learning_rate": 0.0005592728315776519,
      "loss": 0.4561,
      "num_input_tokens_seen": 12871336,
      "step": 19690
    },
    {
      "epoch": 10.322327044025156,
      "grad_norm": 0.13817985355854034,
      "learning_rate": 0.0005590457522412638,
      "loss": 0.4032,
      "num_input_tokens_seen": 12875336,
      "step": 19695
    },
    {
      "epoch": 10.324947589098532,
      "grad_norm": 0.16311751306056976,
      "learning_rate": 0.000558818660553178,
      "loss": 0.481,
      "num_input_tokens_seen": 12878696,
      "step": 19700
    },
    {
      "epoch": 10.327568134171909,
      "grad_norm": 0.05114990472793579,
      "learning_rate": 0.0005585915565608995,
      "loss": 0.4792,
      "num_input_tokens_seen": 12882600,
      "step": 19705
    },
    {
      "epoch": 10.330188679245284,
      "grad_norm": 0.0736176073551178,
      "learning_rate": 0.0005583644403119357,
      "loss": 0.3986,
      "num_input_tokens_seen": 12885192,
      "step": 19710
    },
    {
      "epoch": 10.332809224318659,
      "grad_norm": 0.1947682499885559,
      "learning_rate": 0.0005581373118537969,
      "loss": 0.3774,
      "num_input_tokens_seen": 12888040,
      "step": 19715
    },
    {
      "epoch": 10.335429769392034,
      "grad_norm": 0.12742061913013458,
      "learning_rate": 0.0005579101712339957,
      "loss": 0.5146,
      "num_input_tokens_seen": 12890536,
      "step": 19720
    },
    {
      "epoch": 10.33805031446541,
      "grad_norm": 0.1111106276512146,
      "learning_rate": 0.0005576830185000474,
      "loss": 0.4138,
      "num_input_tokens_seen": 12892872,
      "step": 19725
    },
    {
      "epoch": 10.340670859538784,
      "grad_norm": 0.08348444104194641,
      "learning_rate": 0.0005574558536994698,
      "loss": 0.4009,
      "num_input_tokens_seen": 12896008,
      "step": 19730
    },
    {
      "epoch": 10.34329140461216,
      "grad_norm": 0.14801786839962006,
      "learning_rate": 0.0005572286768797829,
      "loss": 0.3682,
      "num_input_tokens_seen": 12899464,
      "step": 19735
    },
    {
      "epoch": 10.345911949685535,
      "grad_norm": 0.09695836156606674,
      "learning_rate": 0.0005570014880885098,
      "loss": 0.458,
      "num_input_tokens_seen": 12902312,
      "step": 19740
    },
    {
      "epoch": 10.34853249475891,
      "grad_norm": 0.09156950563192368,
      "learning_rate": 0.0005567742873731757,
      "loss": 0.3782,
      "num_input_tokens_seen": 12906760,
      "step": 19745
    },
    {
      "epoch": 10.351153039832285,
      "grad_norm": 0.1281885951757431,
      "learning_rate": 0.0005565470747813085,
      "loss": 0.5096,
      "num_input_tokens_seen": 12909576,
      "step": 19750
    },
    {
      "epoch": 10.35377358490566,
      "grad_norm": 0.06975241005420685,
      "learning_rate": 0.0005563198503604382,
      "loss": 0.3542,
      "num_input_tokens_seen": 12912808,
      "step": 19755
    },
    {
      "epoch": 10.356394129979035,
      "grad_norm": 0.07486768066883087,
      "learning_rate": 0.0005560926141580978,
      "loss": 0.3202,
      "num_input_tokens_seen": 12916552,
      "step": 19760
    },
    {
      "epoch": 10.35901467505241,
      "grad_norm": 0.05025659501552582,
      "learning_rate": 0.0005558653662218225,
      "loss": 0.4646,
      "num_input_tokens_seen": 12919368,
      "step": 19765
    },
    {
      "epoch": 10.361635220125786,
      "grad_norm": 0.08542784303426743,
      "learning_rate": 0.00055563810659915,
      "loss": 0.3151,
      "num_input_tokens_seen": 12923976,
      "step": 19770
    },
    {
      "epoch": 10.364255765199161,
      "grad_norm": 0.07780122011899948,
      "learning_rate": 0.0005554108353376201,
      "loss": 0.4864,
      "num_input_tokens_seen": 12926728,
      "step": 19775
    },
    {
      "epoch": 10.366876310272536,
      "grad_norm": 0.1138368770480156,
      "learning_rate": 0.0005551835524847757,
      "loss": 0.4076,
      "num_input_tokens_seen": 12931176,
      "step": 19780
    },
    {
      "epoch": 10.369496855345911,
      "grad_norm": 0.1393619179725647,
      "learning_rate": 0.0005549562580881618,
      "loss": 0.5399,
      "num_input_tokens_seen": 12934088,
      "step": 19785
    },
    {
      "epoch": 10.372117400419286,
      "grad_norm": 0.16185496747493744,
      "learning_rate": 0.0005547289521953257,
      "loss": 0.396,
      "num_input_tokens_seen": 12936936,
      "step": 19790
    },
    {
      "epoch": 10.374737945492662,
      "grad_norm": 0.06482553482055664,
      "learning_rate": 0.000554501634853817,
      "loss": 0.4148,
      "num_input_tokens_seen": 12940968,
      "step": 19795
    },
    {
      "epoch": 10.377358490566039,
      "grad_norm": 0.1451602578163147,
      "learning_rate": 0.0005542743061111883,
      "loss": 0.5567,
      "num_input_tokens_seen": 12944840,
      "step": 19800
    },
    {
      "epoch": 10.379979035639414,
      "grad_norm": 0.07493831217288971,
      "learning_rate": 0.0005540469660149938,
      "loss": 0.4074,
      "num_input_tokens_seen": 12947848,
      "step": 19805
    },
    {
      "epoch": 10.382599580712789,
      "grad_norm": 0.06323516368865967,
      "learning_rate": 0.0005538196146127907,
      "loss": 0.4522,
      "num_input_tokens_seen": 12951496,
      "step": 19810
    },
    {
      "epoch": 10.385220125786164,
      "grad_norm": 0.08714022487401962,
      "learning_rate": 0.0005535922519521381,
      "loss": 0.4039,
      "num_input_tokens_seen": 12955272,
      "step": 19815
    },
    {
      "epoch": 10.38784067085954,
      "grad_norm": 0.0996011272072792,
      "learning_rate": 0.0005533648780805979,
      "loss": 0.3822,
      "num_input_tokens_seen": 12958376,
      "step": 19820
    },
    {
      "epoch": 10.390461215932914,
      "grad_norm": 0.10960894823074341,
      "learning_rate": 0.000553137493045734,
      "loss": 0.4232,
      "num_input_tokens_seen": 12961192,
      "step": 19825
    },
    {
      "epoch": 10.39308176100629,
      "grad_norm": 0.09059309214353561,
      "learning_rate": 0.0005529100968951127,
      "loss": 0.4394,
      "num_input_tokens_seen": 12965256,
      "step": 19830
    },
    {
      "epoch": 10.395702306079665,
      "grad_norm": 0.12000594288110733,
      "learning_rate": 0.0005526826896763029,
      "loss": 0.6749,
      "num_input_tokens_seen": 12968456,
      "step": 19835
    },
    {
      "epoch": 10.39832285115304,
      "grad_norm": 0.13372685015201569,
      "learning_rate": 0.0005524552714368753,
      "loss": 0.4979,
      "num_input_tokens_seen": 12972104,
      "step": 19840
    },
    {
      "epoch": 10.400943396226415,
      "grad_norm": 0.15115417540073395,
      "learning_rate": 0.0005522278422244035,
      "loss": 0.5052,
      "num_input_tokens_seen": 12975752,
      "step": 19845
    },
    {
      "epoch": 10.40356394129979,
      "grad_norm": 0.07280061393976212,
      "learning_rate": 0.0005520004020864631,
      "loss": 0.4571,
      "num_input_tokens_seen": 12979656,
      "step": 19850
    },
    {
      "epoch": 10.406184486373165,
      "grad_norm": 0.11473240703344345,
      "learning_rate": 0.0005517729510706315,
      "loss": 0.527,
      "num_input_tokens_seen": 12982696,
      "step": 19855
    },
    {
      "epoch": 10.40880503144654,
      "grad_norm": 0.08080867677927017,
      "learning_rate": 0.0005515454892244892,
      "loss": 0.38,
      "num_input_tokens_seen": 12985576,
      "step": 19860
    },
    {
      "epoch": 10.411425576519916,
      "grad_norm": 0.09946410357952118,
      "learning_rate": 0.0005513180165956189,
      "loss": 0.3956,
      "num_input_tokens_seen": 12988904,
      "step": 19865
    },
    {
      "epoch": 10.414046121593291,
      "grad_norm": 0.12208540737628937,
      "learning_rate": 0.0005510905332316049,
      "loss": 0.3266,
      "num_input_tokens_seen": 12992520,
      "step": 19870
    },
    {
      "epoch": 10.416666666666666,
      "grad_norm": 0.13231272995471954,
      "learning_rate": 0.0005508630391800341,
      "loss": 0.3936,
      "num_input_tokens_seen": 12996040,
      "step": 19875
    },
    {
      "epoch": 10.419287211740041,
      "grad_norm": 0.1576704978942871,
      "learning_rate": 0.0005506355344884959,
      "loss": 0.6072,
      "num_input_tokens_seen": 12999848,
      "step": 19880
    },
    {
      "epoch": 10.421907756813416,
      "grad_norm": 0.08487722277641296,
      "learning_rate": 0.0005504080192045813,
      "loss": 0.4871,
      "num_input_tokens_seen": 13003144,
      "step": 19885
    },
    {
      "epoch": 10.424528301886792,
      "grad_norm": 0.11042841523885727,
      "learning_rate": 0.0005501804933758846,
      "loss": 0.3409,
      "num_input_tokens_seen": 13005512,
      "step": 19890
    },
    {
      "epoch": 10.427148846960169,
      "grad_norm": 0.11309189349412918,
      "learning_rate": 0.0005499529570500009,
      "loss": 0.5442,
      "num_input_tokens_seen": 13008680,
      "step": 19895
    },
    {
      "epoch": 10.429769392033544,
      "grad_norm": 0.1122099980711937,
      "learning_rate": 0.0005497254102745285,
      "loss": 0.5512,
      "num_input_tokens_seen": 13011688,
      "step": 19900
    },
    {
      "epoch": 10.432389937106919,
      "grad_norm": 0.060939375311136246,
      "learning_rate": 0.0005494978530970676,
      "loss": 0.393,
      "num_input_tokens_seen": 13014664,
      "step": 19905
    },
    {
      "epoch": 10.435010482180294,
      "grad_norm": 0.09905318915843964,
      "learning_rate": 0.0005492702855652206,
      "loss": 0.4521,
      "num_input_tokens_seen": 13019112,
      "step": 19910
    },
    {
      "epoch": 10.43763102725367,
      "grad_norm": 0.16591864824295044,
      "learning_rate": 0.000549042707726592,
      "loss": 0.6358,
      "num_input_tokens_seen": 13021832,
      "step": 19915
    },
    {
      "epoch": 10.440251572327044,
      "grad_norm": 0.09059656411409378,
      "learning_rate": 0.0005488151196287882,
      "loss": 0.5037,
      "num_input_tokens_seen": 13025128,
      "step": 19920
    },
    {
      "epoch": 10.44287211740042,
      "grad_norm": 0.08181437104940414,
      "learning_rate": 0.0005485875213194184,
      "loss": 0.5092,
      "num_input_tokens_seen": 13028072,
      "step": 19925
    },
    {
      "epoch": 10.445492662473795,
      "grad_norm": 0.13302455842494965,
      "learning_rate": 0.0005483599128460935,
      "loss": 0.5075,
      "num_input_tokens_seen": 13031272,
      "step": 19930
    },
    {
      "epoch": 10.44811320754717,
      "grad_norm": 0.10418379306793213,
      "learning_rate": 0.0005481322942564266,
      "loss": 0.3709,
      "num_input_tokens_seen": 13034120,
      "step": 19935
    },
    {
      "epoch": 10.450733752620545,
      "grad_norm": 0.08431690186262131,
      "learning_rate": 0.0005479046655980327,
      "loss": 0.53,
      "num_input_tokens_seen": 13037256,
      "step": 19940
    },
    {
      "epoch": 10.45335429769392,
      "grad_norm": 0.14981673657894135,
      "learning_rate": 0.0005476770269185295,
      "loss": 0.3726,
      "num_input_tokens_seen": 13040008,
      "step": 19945
    },
    {
      "epoch": 10.455974842767295,
      "grad_norm": 0.08021704107522964,
      "learning_rate": 0.0005474493782655361,
      "loss": 0.4392,
      "num_input_tokens_seen": 13043944,
      "step": 19950
    },
    {
      "epoch": 10.45859538784067,
      "grad_norm": 0.09795884788036346,
      "learning_rate": 0.0005472217196866742,
      "loss": 0.5113,
      "num_input_tokens_seen": 13046408,
      "step": 19955
    },
    {
      "epoch": 10.461215932914046,
      "grad_norm": 0.13567081093788147,
      "learning_rate": 0.0005469940512295671,
      "loss": 0.4305,
      "num_input_tokens_seen": 13049832,
      "step": 19960
    },
    {
      "epoch": 10.463836477987421,
      "grad_norm": 0.08018295466899872,
      "learning_rate": 0.0005467663729418406,
      "loss": 0.4558,
      "num_input_tokens_seen": 13053640,
      "step": 19965
    },
    {
      "epoch": 10.466457023060796,
      "grad_norm": 0.1256445050239563,
      "learning_rate": 0.0005465386848711225,
      "loss": 0.4241,
      "num_input_tokens_seen": 13056680,
      "step": 19970
    },
    {
      "epoch": 10.469077568134171,
      "grad_norm": 0.08802355080842972,
      "learning_rate": 0.0005463109870650426,
      "loss": 0.4019,
      "num_input_tokens_seen": 13059560,
      "step": 19975
    },
    {
      "epoch": 10.471698113207546,
      "grad_norm": 0.12926627695560455,
      "learning_rate": 0.0005460832795712323,
      "loss": 0.4461,
      "num_input_tokens_seen": 13062856,
      "step": 19980
    },
    {
      "epoch": 10.474318658280922,
      "grad_norm": 0.10669779032468796,
      "learning_rate": 0.0005458555624373258,
      "loss": 0.3515,
      "num_input_tokens_seen": 13068392,
      "step": 19985
    },
    {
      "epoch": 10.476939203354299,
      "grad_norm": 0.08556080609560013,
      "learning_rate": 0.0005456278357109589,
      "loss": 0.5383,
      "num_input_tokens_seen": 13071400,
      "step": 19990
    },
    {
      "epoch": 10.479559748427674,
      "grad_norm": 0.1899084448814392,
      "learning_rate": 0.0005454000994397691,
      "loss": 0.5627,
      "num_input_tokens_seen": 13074760,
      "step": 19995
    },
    {
      "epoch": 10.482180293501049,
      "grad_norm": 0.28120794892311096,
      "learning_rate": 0.0005451723536713965,
      "loss": 0.4504,
      "num_input_tokens_seen": 13078664,
      "step": 20000
    },
    {
      "epoch": 10.484800838574424,
      "grad_norm": 0.147300124168396,
      "learning_rate": 0.0005449445984534828,
      "loss": 0.6081,
      "num_input_tokens_seen": 13081448,
      "step": 20005
    },
    {
      "epoch": 10.4874213836478,
      "grad_norm": 0.07237296551465988,
      "learning_rate": 0.0005447168338336721,
      "loss": 0.3657,
      "num_input_tokens_seen": 13085224,
      "step": 20010
    },
    {
      "epoch": 10.490041928721174,
      "grad_norm": 0.1126609668135643,
      "learning_rate": 0.0005444890598596098,
      "loss": 0.5876,
      "num_input_tokens_seen": 13088136,
      "step": 20015
    },
    {
      "epoch": 10.49266247379455,
      "grad_norm": 0.12266375124454498,
      "learning_rate": 0.0005442612765789437,
      "loss": 0.4177,
      "num_input_tokens_seen": 13091112,
      "step": 20020
    },
    {
      "epoch": 10.495283018867925,
      "grad_norm": 0.13157837092876434,
      "learning_rate": 0.0005440334840393235,
      "loss": 0.4083,
      "num_input_tokens_seen": 13094376,
      "step": 20025
    },
    {
      "epoch": 10.4979035639413,
      "grad_norm": 0.08865837752819061,
      "learning_rate": 0.0005438056822884007,
      "loss": 0.4409,
      "num_input_tokens_seen": 13097160,
      "step": 20030
    },
    {
      "epoch": 10.500524109014675,
      "grad_norm": 0.15292292833328247,
      "learning_rate": 0.0005435778713738292,
      "loss": 0.3776,
      "num_input_tokens_seen": 13101128,
      "step": 20035
    },
    {
      "epoch": 10.50314465408805,
      "grad_norm": 0.12022148072719574,
      "learning_rate": 0.0005433500513432639,
      "loss": 0.5487,
      "num_input_tokens_seen": 13104552,
      "step": 20040
    },
    {
      "epoch": 10.505765199161425,
      "grad_norm": 0.14960689842700958,
      "learning_rate": 0.0005431222222443626,
      "loss": 0.4665,
      "num_input_tokens_seen": 13106920,
      "step": 20045
    },
    {
      "epoch": 10.5083857442348,
      "grad_norm": 0.11244717240333557,
      "learning_rate": 0.0005428943841247843,
      "loss": 0.5031,
      "num_input_tokens_seen": 13110408,
      "step": 20050
    },
    {
      "epoch": 10.511006289308176,
      "grad_norm": 0.12115640193223953,
      "learning_rate": 0.0005426665370321901,
      "loss": 0.4718,
      "num_input_tokens_seen": 13112808,
      "step": 20055
    },
    {
      "epoch": 10.51362683438155,
      "grad_norm": 0.07719623297452927,
      "learning_rate": 0.0005424386810142433,
      "loss": 0.427,
      "num_input_tokens_seen": 13116680,
      "step": 20060
    },
    {
      "epoch": 10.516247379454926,
      "grad_norm": 0.16369643807411194,
      "learning_rate": 0.0005422108161186086,
      "loss": 0.5038,
      "num_input_tokens_seen": 13119272,
      "step": 20065
    },
    {
      "epoch": 10.518867924528301,
      "grad_norm": 0.0950331911444664,
      "learning_rate": 0.0005419829423929525,
      "loss": 0.4234,
      "num_input_tokens_seen": 13122664,
      "step": 20070
    },
    {
      "epoch": 10.521488469601676,
      "grad_norm": 0.15524694323539734,
      "learning_rate": 0.0005417550598849441,
      "loss": 0.4407,
      "num_input_tokens_seen": 13125672,
      "step": 20075
    },
    {
      "epoch": 10.524109014675052,
      "grad_norm": 0.15498317778110504,
      "learning_rate": 0.0005415271686422534,
      "loss": 0.4943,
      "num_input_tokens_seen": 13128392,
      "step": 20080
    },
    {
      "epoch": 10.526729559748428,
      "grad_norm": 0.1598508507013321,
      "learning_rate": 0.0005412992687125527,
      "loss": 0.386,
      "num_input_tokens_seen": 13131624,
      "step": 20085
    },
    {
      "epoch": 10.529350104821804,
      "grad_norm": 0.0930495411157608,
      "learning_rate": 0.0005410713601435164,
      "loss": 0.4757,
      "num_input_tokens_seen": 13135240,
      "step": 20090
    },
    {
      "epoch": 10.531970649895179,
      "grad_norm": 0.07299644500017166,
      "learning_rate": 0.0005408434429828199,
      "loss": 0.6073,
      "num_input_tokens_seen": 13138152,
      "step": 20095
    },
    {
      "epoch": 10.534591194968554,
      "grad_norm": 0.11978617310523987,
      "learning_rate": 0.0005406155172781412,
      "loss": 0.4216,
      "num_input_tokens_seen": 13144040,
      "step": 20100
    },
    {
      "epoch": 10.53721174004193,
      "grad_norm": 0.10185517370700836,
      "learning_rate": 0.0005403875830771596,
      "loss": 0.5306,
      "num_input_tokens_seen": 13146664,
      "step": 20105
    },
    {
      "epoch": 10.539832285115304,
      "grad_norm": 0.11617840081453323,
      "learning_rate": 0.0005401596404275564,
      "loss": 0.5327,
      "num_input_tokens_seen": 13151080,
      "step": 20110
    },
    {
      "epoch": 10.54245283018868,
      "grad_norm": 0.15167513489723206,
      "learning_rate": 0.0005399316893770147,
      "loss": 0.4419,
      "num_input_tokens_seen": 13154600,
      "step": 20115
    },
    {
      "epoch": 10.545073375262055,
      "grad_norm": 0.17002658545970917,
      "learning_rate": 0.0005397037299732189,
      "loss": 0.3174,
      "num_input_tokens_seen": 13157928,
      "step": 20120
    },
    {
      "epoch": 10.54769392033543,
      "grad_norm": 0.07733190059661865,
      "learning_rate": 0.000539475762263856,
      "loss": 0.4391,
      "num_input_tokens_seen": 13161000,
      "step": 20125
    },
    {
      "epoch": 10.550314465408805,
      "grad_norm": 0.130886971950531,
      "learning_rate": 0.0005392477862966138,
      "loss": 0.5081,
      "num_input_tokens_seen": 13163880,
      "step": 20130
    },
    {
      "epoch": 10.55293501048218,
      "grad_norm": 0.08835947513580322,
      "learning_rate": 0.0005390198021191827,
      "loss": 0.4715,
      "num_input_tokens_seen": 13166376,
      "step": 20135
    },
    {
      "epoch": 10.555555555555555,
      "grad_norm": 0.09843564033508301,
      "learning_rate": 0.000538791809779254,
      "loss": 0.3688,
      "num_input_tokens_seen": 13170120,
      "step": 20140
    },
    {
      "epoch": 10.55817610062893,
      "grad_norm": 0.13180632889270782,
      "learning_rate": 0.0005385638093245213,
      "loss": 0.529,
      "num_input_tokens_seen": 13172552,
      "step": 20145
    },
    {
      "epoch": 10.560796645702306,
      "grad_norm": 0.0877988412976265,
      "learning_rate": 0.0005383358008026795,
      "loss": 0.4297,
      "num_input_tokens_seen": 13176456,
      "step": 20150
    },
    {
      "epoch": 10.56341719077568,
      "grad_norm": 0.10656162351369858,
      "learning_rate": 0.0005381077842614257,
      "loss": 0.4691,
      "num_input_tokens_seen": 13179496,
      "step": 20155
    },
    {
      "epoch": 10.566037735849056,
      "grad_norm": 0.10106368362903595,
      "learning_rate": 0.0005378797597484582,
      "loss": 0.5288,
      "num_input_tokens_seen": 13182504,
      "step": 20160
    },
    {
      "epoch": 10.568658280922431,
      "grad_norm": 0.042783066630363464,
      "learning_rate": 0.0005376517273114771,
      "loss": 0.4026,
      "num_input_tokens_seen": 13185960,
      "step": 20165
    },
    {
      "epoch": 10.571278825995806,
      "grad_norm": 0.11120809614658356,
      "learning_rate": 0.0005374236869981841,
      "loss": 0.4348,
      "num_input_tokens_seen": 13188968,
      "step": 20170
    },
    {
      "epoch": 10.573899371069182,
      "grad_norm": 0.07821640372276306,
      "learning_rate": 0.0005371956388562827,
      "loss": 0.2987,
      "num_input_tokens_seen": 13191944,
      "step": 20175
    },
    {
      "epoch": 10.576519916142558,
      "grad_norm": 0.14745557308197021,
      "learning_rate": 0.0005369675829334782,
      "loss": 0.5983,
      "num_input_tokens_seen": 13195496,
      "step": 20180
    },
    {
      "epoch": 10.579140461215934,
      "grad_norm": 0.11503373831510544,
      "learning_rate": 0.0005367395192774769,
      "loss": 0.4497,
      "num_input_tokens_seen": 13198408,
      "step": 20185
    },
    {
      "epoch": 10.581761006289309,
      "grad_norm": 0.13057027757167816,
      "learning_rate": 0.0005365114479359875,
      "loss": 0.3448,
      "num_input_tokens_seen": 13202184,
      "step": 20190
    },
    {
      "epoch": 10.584381551362684,
      "grad_norm": 0.14710652828216553,
      "learning_rate": 0.0005362833689567197,
      "loss": 0.5757,
      "num_input_tokens_seen": 13204872,
      "step": 20195
    },
    {
      "epoch": 10.58700209643606,
      "grad_norm": 0.08987791836261749,
      "learning_rate": 0.0005360552823873849,
      "loss": 0.3962,
      "num_input_tokens_seen": 13208296,
      "step": 20200
    },
    {
      "epoch": 10.589622641509434,
      "grad_norm": 0.08332192152738571,
      "learning_rate": 0.0005358271882756966,
      "loss": 0.3501,
      "num_input_tokens_seen": 13211592,
      "step": 20205
    },
    {
      "epoch": 10.59224318658281,
      "grad_norm": 0.09786611050367355,
      "learning_rate": 0.0005355990866693689,
      "loss": 0.5243,
      "num_input_tokens_seen": 13215048,
      "step": 20210
    },
    {
      "epoch": 10.594863731656185,
      "grad_norm": 0.24350839853286743,
      "learning_rate": 0.0005353709776161187,
      "loss": 0.5603,
      "num_input_tokens_seen": 13218760,
      "step": 20215
    },
    {
      "epoch": 10.59748427672956,
      "grad_norm": 0.1268806904554367,
      "learning_rate": 0.0005351428611636636,
      "loss": 0.3833,
      "num_input_tokens_seen": 13221800,
      "step": 20220
    },
    {
      "epoch": 10.600104821802935,
      "grad_norm": 0.11277041584253311,
      "learning_rate": 0.0005349147373597226,
      "loss": 0.5531,
      "num_input_tokens_seen": 13224872,
      "step": 20225
    },
    {
      "epoch": 10.60272536687631,
      "grad_norm": 0.1681373566389084,
      "learning_rate": 0.000534686606252017,
      "loss": 0.3983,
      "num_input_tokens_seen": 13227464,
      "step": 20230
    },
    {
      "epoch": 10.605345911949685,
      "grad_norm": 0.09430166333913803,
      "learning_rate": 0.0005344584678882692,
      "loss": 0.6046,
      "num_input_tokens_seen": 13230952,
      "step": 20235
    },
    {
      "epoch": 10.60796645702306,
      "grad_norm": 0.08556663990020752,
      "learning_rate": 0.0005342303223162027,
      "loss": 0.5151,
      "num_input_tokens_seen": 13235784,
      "step": 20240
    },
    {
      "epoch": 10.610587002096436,
      "grad_norm": 0.12162474542856216,
      "learning_rate": 0.0005340021695835437,
      "loss": 0.3158,
      "num_input_tokens_seen": 13238824,
      "step": 20245
    },
    {
      "epoch": 10.61320754716981,
      "grad_norm": 0.16026754677295685,
      "learning_rate": 0.0005337740097380184,
      "loss": 0.4137,
      "num_input_tokens_seen": 13241736,
      "step": 20250
    },
    {
      "epoch": 10.615828092243186,
      "grad_norm": 0.10456578433513641,
      "learning_rate": 0.0005335458428273557,
      "loss": 0.512,
      "num_input_tokens_seen": 13244520,
      "step": 20255
    },
    {
      "epoch": 10.618448637316561,
      "grad_norm": 0.24536459147930145,
      "learning_rate": 0.0005333176688992855,
      "loss": 0.4093,
      "num_input_tokens_seen": 13248520,
      "step": 20260
    },
    {
      "epoch": 10.621069182389936,
      "grad_norm": 0.07174378633499146,
      "learning_rate": 0.000533089488001539,
      "loss": 0.4544,
      "num_input_tokens_seen": 13251912,
      "step": 20265
    },
    {
      "epoch": 10.623689727463312,
      "grad_norm": 0.14329056441783905,
      "learning_rate": 0.0005328613001818492,
      "loss": 0.453,
      "num_input_tokens_seen": 13254280,
      "step": 20270
    },
    {
      "epoch": 10.626310272536688,
      "grad_norm": 0.10884490609169006,
      "learning_rate": 0.0005326331054879502,
      "loss": 0.5433,
      "num_input_tokens_seen": 13257864,
      "step": 20275
    },
    {
      "epoch": 10.628930817610064,
      "grad_norm": 0.09834282100200653,
      "learning_rate": 0.0005324049039675778,
      "loss": 0.4323,
      "num_input_tokens_seen": 13260520,
      "step": 20280
    },
    {
      "epoch": 10.631551362683439,
      "grad_norm": 0.10828762501478195,
      "learning_rate": 0.0005321766956684693,
      "loss": 0.5046,
      "num_input_tokens_seen": 13263432,
      "step": 20285
    },
    {
      "epoch": 10.634171907756814,
      "grad_norm": 0.14457346498966217,
      "learning_rate": 0.0005319484806383631,
      "loss": 0.4449,
      "num_input_tokens_seen": 13267112,
      "step": 20290
    },
    {
      "epoch": 10.63679245283019,
      "grad_norm": 0.14848877489566803,
      "learning_rate": 0.0005317202589249991,
      "loss": 0.4553,
      "num_input_tokens_seen": 13269736,
      "step": 20295
    },
    {
      "epoch": 10.639412997903564,
      "grad_norm": 0.11823034286499023,
      "learning_rate": 0.0005314920305761191,
      "loss": 0.6085,
      "num_input_tokens_seen": 13272520,
      "step": 20300
    },
    {
      "epoch": 10.64203354297694,
      "grad_norm": 0.16801460087299347,
      "learning_rate": 0.0005312637956394654,
      "loss": 0.5349,
      "num_input_tokens_seen": 13275976,
      "step": 20305
    },
    {
      "epoch": 10.644654088050315,
      "grad_norm": 0.13309726119041443,
      "learning_rate": 0.0005310355541627824,
      "loss": 0.4677,
      "num_input_tokens_seen": 13279304,
      "step": 20310
    },
    {
      "epoch": 10.64727463312369,
      "grad_norm": 0.10435045510530472,
      "learning_rate": 0.0005308073061938153,
      "loss": 0.45,
      "num_input_tokens_seen": 13282888,
      "step": 20315
    },
    {
      "epoch": 10.649895178197065,
      "grad_norm": 0.07283741235733032,
      "learning_rate": 0.0005305790517803115,
      "loss": 0.3631,
      "num_input_tokens_seen": 13285512,
      "step": 20320
    },
    {
      "epoch": 10.65251572327044,
      "grad_norm": 0.07601787894964218,
      "learning_rate": 0.0005303507909700189,
      "loss": 0.4171,
      "num_input_tokens_seen": 13288904,
      "step": 20325
    },
    {
      "epoch": 10.655136268343815,
      "grad_norm": 0.08274338394403458,
      "learning_rate": 0.000530122523810687,
      "loss": 0.3739,
      "num_input_tokens_seen": 13291656,
      "step": 20330
    },
    {
      "epoch": 10.65775681341719,
      "grad_norm": 0.0930899828672409,
      "learning_rate": 0.0005298942503500668,
      "loss": 0.3818,
      "num_input_tokens_seen": 13295816,
      "step": 20335
    },
    {
      "epoch": 10.660377358490566,
      "grad_norm": 0.09584896266460419,
      "learning_rate": 0.0005296659706359105,
      "loss": 0.4874,
      "num_input_tokens_seen": 13299112,
      "step": 20340
    },
    {
      "epoch": 10.66299790356394,
      "grad_norm": 0.10899495333433151,
      "learning_rate": 0.0005294376847159716,
      "loss": 0.4688,
      "num_input_tokens_seen": 13302696,
      "step": 20345
    },
    {
      "epoch": 10.665618448637316,
      "grad_norm": 0.07972058653831482,
      "learning_rate": 0.0005292093926380049,
      "loss": 0.4323,
      "num_input_tokens_seen": 13306408,
      "step": 20350
    },
    {
      "epoch": 10.668238993710691,
      "grad_norm": 0.14280050992965698,
      "learning_rate": 0.0005289810944497663,
      "loss": 0.39,
      "num_input_tokens_seen": 13309160,
      "step": 20355
    },
    {
      "epoch": 10.670859538784066,
      "grad_norm": 0.10226286202669144,
      "learning_rate": 0.0005287527901990137,
      "loss": 0.4054,
      "num_input_tokens_seen": 13311752,
      "step": 20360
    },
    {
      "epoch": 10.673480083857442,
      "grad_norm": 0.0848889946937561,
      "learning_rate": 0.0005285244799335053,
      "loss": 0.4176,
      "num_input_tokens_seen": 13314792,
      "step": 20365
    },
    {
      "epoch": 10.676100628930818,
      "grad_norm": 0.08281933516263962,
      "learning_rate": 0.0005282961637010009,
      "loss": 0.4255,
      "num_input_tokens_seen": 13317832,
      "step": 20370
    },
    {
      "epoch": 10.678721174004194,
      "grad_norm": 0.09907471388578415,
      "learning_rate": 0.0005280678415492621,
      "loss": 0.3042,
      "num_input_tokens_seen": 13321096,
      "step": 20375
    },
    {
      "epoch": 10.681341719077569,
      "grad_norm": 0.06910093128681183,
      "learning_rate": 0.0005278395135260512,
      "loss": 0.4459,
      "num_input_tokens_seen": 13324008,
      "step": 20380
    },
    {
      "epoch": 10.683962264150944,
      "grad_norm": 0.13752298057079315,
      "learning_rate": 0.0005276111796791314,
      "loss": 0.457,
      "num_input_tokens_seen": 13327400,
      "step": 20385
    },
    {
      "epoch": 10.68658280922432,
      "grad_norm": 0.1316097527742386,
      "learning_rate": 0.000527382840056268,
      "loss": 0.4647,
      "num_input_tokens_seen": 13330504,
      "step": 20390
    },
    {
      "epoch": 10.689203354297694,
      "grad_norm": 0.09276828914880753,
      "learning_rate": 0.0005271544947052267,
      "loss": 0.4885,
      "num_input_tokens_seen": 13334152,
      "step": 20395
    },
    {
      "epoch": 10.69182389937107,
      "grad_norm": 0.08302602171897888,
      "learning_rate": 0.000526926143673775,
      "loss": 0.4149,
      "num_input_tokens_seen": 13337960,
      "step": 20400
    },
    {
      "epoch": 10.694444444444445,
      "grad_norm": 0.08772903680801392,
      "learning_rate": 0.0005266977870096813,
      "loss": 0.4444,
      "num_input_tokens_seen": 13341096,
      "step": 20405
    },
    {
      "epoch": 10.69706498951782,
      "grad_norm": 0.17700663208961487,
      "learning_rate": 0.000526469424760715,
      "loss": 0.3481,
      "num_input_tokens_seen": 13344744,
      "step": 20410
    },
    {
      "epoch": 10.699685534591195,
      "grad_norm": 0.1577800214290619,
      "learning_rate": 0.0005262410569746471,
      "loss": 0.5331,
      "num_input_tokens_seen": 13347752,
      "step": 20415
    },
    {
      "epoch": 10.70230607966457,
      "grad_norm": 0.06617468595504761,
      "learning_rate": 0.0005260126836992495,
      "loss": 0.4647,
      "num_input_tokens_seen": 13350696,
      "step": 20420
    },
    {
      "epoch": 10.704926624737945,
      "grad_norm": 0.17516568303108215,
      "learning_rate": 0.000525784304982295,
      "loss": 0.5945,
      "num_input_tokens_seen": 13353032,
      "step": 20425
    },
    {
      "epoch": 10.70754716981132,
      "grad_norm": 0.10889987647533417,
      "learning_rate": 0.0005255559208715585,
      "loss": 0.4424,
      "num_input_tokens_seen": 13355784,
      "step": 20430
    },
    {
      "epoch": 10.710167714884696,
      "grad_norm": 0.17503245174884796,
      "learning_rate": 0.0005253275314148145,
      "loss": 0.4505,
      "num_input_tokens_seen": 13358408,
      "step": 20435
    },
    {
      "epoch": 10.71278825995807,
      "grad_norm": 0.09893717616796494,
      "learning_rate": 0.0005250991366598401,
      "loss": 0.4159,
      "num_input_tokens_seen": 13365192,
      "step": 20440
    },
    {
      "epoch": 10.715408805031446,
      "grad_norm": 0.11189699918031693,
      "learning_rate": 0.0005248707366544126,
      "loss": 0.4792,
      "num_input_tokens_seen": 13368808,
      "step": 20445
    },
    {
      "epoch": 10.718029350104821,
      "grad_norm": 0.10945619642734528,
      "learning_rate": 0.0005246423314463106,
      "loss": 0.4547,
      "num_input_tokens_seen": 13371880,
      "step": 20450
    },
    {
      "epoch": 10.720649895178196,
      "grad_norm": 0.1801547110080719,
      "learning_rate": 0.000524413921083314,
      "loss": 0.749,
      "num_input_tokens_seen": 13374632,
      "step": 20455
    },
    {
      "epoch": 10.723270440251572,
      "grad_norm": 0.08968335390090942,
      "learning_rate": 0.0005241855056132039,
      "loss": 0.5254,
      "num_input_tokens_seen": 13377960,
      "step": 20460
    },
    {
      "epoch": 10.725890985324948,
      "grad_norm": 0.0947801023721695,
      "learning_rate": 0.0005239570850837617,
      "loss": 0.4568,
      "num_input_tokens_seen": 13381864,
      "step": 20465
    },
    {
      "epoch": 10.728511530398324,
      "grad_norm": 0.15986734628677368,
      "learning_rate": 0.0005237286595427709,
      "loss": 0.4443,
      "num_input_tokens_seen": 13384232,
      "step": 20470
    },
    {
      "epoch": 10.731132075471699,
      "grad_norm": 0.10606804490089417,
      "learning_rate": 0.000523500229038015,
      "loss": 0.4289,
      "num_input_tokens_seen": 13387208,
      "step": 20475
    },
    {
      "epoch": 10.733752620545074,
      "grad_norm": 0.19293861091136932,
      "learning_rate": 0.0005232717936172794,
      "loss": 0.5792,
      "num_input_tokens_seen": 13389992,
      "step": 20480
    },
    {
      "epoch": 10.73637316561845,
      "grad_norm": 0.11215860396623611,
      "learning_rate": 0.0005230433533283498,
      "loss": 0.4958,
      "num_input_tokens_seen": 13393224,
      "step": 20485
    },
    {
      "epoch": 10.738993710691824,
      "grad_norm": 0.10842958092689514,
      "learning_rate": 0.0005228149082190139,
      "loss": 0.6142,
      "num_input_tokens_seen": 13395880,
      "step": 20490
    },
    {
      "epoch": 10.7416142557652,
      "grad_norm": 0.113752081990242,
      "learning_rate": 0.0005225864583370594,
      "loss": 0.4252,
      "num_input_tokens_seen": 13399432,
      "step": 20495
    },
    {
      "epoch": 10.744234800838575,
      "grad_norm": 0.10073099285364151,
      "learning_rate": 0.0005223580037302754,
      "loss": 0.5357,
      "num_input_tokens_seen": 13402248,
      "step": 20500
    },
    {
      "epoch": 10.74685534591195,
      "grad_norm": 0.10109143704175949,
      "learning_rate": 0.0005221295444464522,
      "loss": 0.3887,
      "num_input_tokens_seen": 13404648,
      "step": 20505
    },
    {
      "epoch": 10.749475890985325,
      "grad_norm": 0.06721941381692886,
      "learning_rate": 0.0005219010805333807,
      "loss": 0.4645,
      "num_input_tokens_seen": 13408296,
      "step": 20510
    },
    {
      "epoch": 10.7520964360587,
      "grad_norm": 0.1341303139925003,
      "learning_rate": 0.000521672612038853,
      "loss": 0.4423,
      "num_input_tokens_seen": 13411560,
      "step": 20515
    },
    {
      "epoch": 10.754716981132075,
      "grad_norm": 0.13271397352218628,
      "learning_rate": 0.0005214441390106624,
      "loss": 0.4372,
      "num_input_tokens_seen": 13414536,
      "step": 20520
    },
    {
      "epoch": 10.75733752620545,
      "grad_norm": 0.09597844630479813,
      "learning_rate": 0.0005212156614966022,
      "loss": 0.5205,
      "num_input_tokens_seen": 13417736,
      "step": 20525
    },
    {
      "epoch": 10.759958071278826,
      "grad_norm": 0.10787535458803177,
      "learning_rate": 0.0005209871795444678,
      "loss": 0.4815,
      "num_input_tokens_seen": 13420744,
      "step": 20530
    },
    {
      "epoch": 10.7625786163522,
      "grad_norm": 0.11362680047750473,
      "learning_rate": 0.000520758693202055,
      "loss": 0.4422,
      "num_input_tokens_seen": 13425032,
      "step": 20535
    },
    {
      "epoch": 10.765199161425576,
      "grad_norm": 0.09481000900268555,
      "learning_rate": 0.0005205302025171601,
      "loss": 0.3764,
      "num_input_tokens_seen": 13429544,
      "step": 20540
    },
    {
      "epoch": 10.767819706498951,
      "grad_norm": 0.08456064760684967,
      "learning_rate": 0.0005203017075375812,
      "loss": 0.5116,
      "num_input_tokens_seen": 13434088,
      "step": 20545
    },
    {
      "epoch": 10.770440251572326,
      "grad_norm": 0.09573652595281601,
      "learning_rate": 0.0005200732083111169,
      "loss": 0.459,
      "num_input_tokens_seen": 13437096,
      "step": 20550
    },
    {
      "epoch": 10.773060796645701,
      "grad_norm": 0.10760772228240967,
      "learning_rate": 0.000519844704885566,
      "loss": 0.4398,
      "num_input_tokens_seen": 13440680,
      "step": 20555
    },
    {
      "epoch": 10.775681341719078,
      "grad_norm": 0.08575534075498581,
      "learning_rate": 0.0005196161973087297,
      "loss": 0.3651,
      "num_input_tokens_seen": 13443496,
      "step": 20560
    },
    {
      "epoch": 10.778301886792454,
      "grad_norm": 0.07820925116539001,
      "learning_rate": 0.0005193876856284084,
      "loss": 0.5206,
      "num_input_tokens_seen": 13446920,
      "step": 20565
    },
    {
      "epoch": 10.780922431865829,
      "grad_norm": 0.09415102005004883,
      "learning_rate": 0.0005191591698924046,
      "loss": 0.5289,
      "num_input_tokens_seen": 13449544,
      "step": 20570
    },
    {
      "epoch": 10.783542976939204,
      "grad_norm": 0.11508102715015411,
      "learning_rate": 0.0005189306501485211,
      "loss": 0.4924,
      "num_input_tokens_seen": 13451848,
      "step": 20575
    },
    {
      "epoch": 10.786163522012579,
      "grad_norm": 0.11591202765703201,
      "learning_rate": 0.0005187021264445613,
      "loss": 0.4966,
      "num_input_tokens_seen": 13455272,
      "step": 20580
    },
    {
      "epoch": 10.788784067085954,
      "grad_norm": 0.11294393986463547,
      "learning_rate": 0.0005184735988283302,
      "loss": 0.5487,
      "num_input_tokens_seen": 13457992,
      "step": 20585
    },
    {
      "epoch": 10.79140461215933,
      "grad_norm": 0.07480524480342865,
      "learning_rate": 0.000518245067347633,
      "loss": 0.3539,
      "num_input_tokens_seen": 13461480,
      "step": 20590
    },
    {
      "epoch": 10.794025157232705,
      "grad_norm": 0.11682099103927612,
      "learning_rate": 0.0005180165320502756,
      "loss": 0.437,
      "num_input_tokens_seen": 13464072,
      "step": 20595
    },
    {
      "epoch": 10.79664570230608,
      "grad_norm": 0.09542431682348251,
      "learning_rate": 0.0005177879929840655,
      "loss": 0.4294,
      "num_input_tokens_seen": 13466888,
      "step": 20600
    },
    {
      "epoch": 10.799266247379455,
      "grad_norm": 0.13287554681301117,
      "learning_rate": 0.0005175594501968103,
      "loss": 0.4614,
      "num_input_tokens_seen": 13469736,
      "step": 20605
    },
    {
      "epoch": 10.80188679245283,
      "grad_norm": 0.11267370730638504,
      "learning_rate": 0.0005173309037363182,
      "loss": 0.4417,
      "num_input_tokens_seen": 13472424,
      "step": 20610
    },
    {
      "epoch": 10.804507337526205,
      "grad_norm": 0.08059196919202805,
      "learning_rate": 0.0005171023536503991,
      "loss": 0.3837,
      "num_input_tokens_seen": 13476040,
      "step": 20615
    },
    {
      "epoch": 10.80712788259958,
      "grad_norm": 0.06069253385066986,
      "learning_rate": 0.0005168737999868624,
      "loss": 0.4182,
      "num_input_tokens_seen": 13481160,
      "step": 20620
    },
    {
      "epoch": 10.809748427672956,
      "grad_norm": 0.09850101172924042,
      "learning_rate": 0.0005166452427935193,
      "loss": 0.397,
      "num_input_tokens_seen": 13484904,
      "step": 20625
    },
    {
      "epoch": 10.81236897274633,
      "grad_norm": 0.09730338305234909,
      "learning_rate": 0.0005164166821181814,
      "loss": 0.4088,
      "num_input_tokens_seen": 13487688,
      "step": 20630
    },
    {
      "epoch": 10.814989517819706,
      "grad_norm": 0.06974349170923233,
      "learning_rate": 0.0005161881180086607,
      "loss": 0.4334,
      "num_input_tokens_seen": 13491112,
      "step": 20635
    },
    {
      "epoch": 10.817610062893081,
      "grad_norm": 0.14270828664302826,
      "learning_rate": 0.0005159595505127705,
      "loss": 0.4581,
      "num_input_tokens_seen": 13494248,
      "step": 20640
    },
    {
      "epoch": 10.820230607966456,
      "grad_norm": 0.09387388825416565,
      "learning_rate": 0.0005157309796783246,
      "loss": 0.5008,
      "num_input_tokens_seen": 13497960,
      "step": 20645
    },
    {
      "epoch": 10.822851153039831,
      "grad_norm": 0.12779459357261658,
      "learning_rate": 0.000515502405553137,
      "loss": 0.4895,
      "num_input_tokens_seen": 13501256,
      "step": 20650
    },
    {
      "epoch": 10.825471698113208,
      "grad_norm": 0.17046436667442322,
      "learning_rate": 0.0005152738281850231,
      "loss": 0.4294,
      "num_input_tokens_seen": 13503592,
      "step": 20655
    },
    {
      "epoch": 10.828092243186584,
      "grad_norm": 0.23734097182750702,
      "learning_rate": 0.0005150452476217986,
      "loss": 0.6017,
      "num_input_tokens_seen": 13505704,
      "step": 20660
    },
    {
      "epoch": 10.830712788259959,
      "grad_norm": 0.13971172273159027,
      "learning_rate": 0.0005148166639112799,
      "loss": 0.4155,
      "num_input_tokens_seen": 13508712,
      "step": 20665
    },
    {
      "epoch": 10.833333333333334,
      "grad_norm": 0.10947627574205399,
      "learning_rate": 0.0005145880771012842,
      "loss": 0.5225,
      "num_input_tokens_seen": 13512136,
      "step": 20670
    },
    {
      "epoch": 10.835953878406709,
      "grad_norm": 0.11235188692808151,
      "learning_rate": 0.0005143594872396291,
      "loss": 0.4915,
      "num_input_tokens_seen": 13514760,
      "step": 20675
    },
    {
      "epoch": 10.838574423480084,
      "grad_norm": 0.1081857979297638,
      "learning_rate": 0.0005141308943741333,
      "loss": 0.4717,
      "num_input_tokens_seen": 13517384,
      "step": 20680
    },
    {
      "epoch": 10.84119496855346,
      "grad_norm": 0.17722101509571075,
      "learning_rate": 0.0005139022985526154,
      "loss": 0.522,
      "num_input_tokens_seen": 13519624,
      "step": 20685
    },
    {
      "epoch": 10.843815513626835,
      "grad_norm": 0.12666267156600952,
      "learning_rate": 0.0005136736998228952,
      "loss": 0.3848,
      "num_input_tokens_seen": 13522152,
      "step": 20690
    },
    {
      "epoch": 10.84643605870021,
      "grad_norm": 0.0947900339961052,
      "learning_rate": 0.0005134450982327933,
      "loss": 0.4183,
      "num_input_tokens_seen": 13525256,
      "step": 20695
    },
    {
      "epoch": 10.849056603773585,
      "grad_norm": 0.12179738283157349,
      "learning_rate": 0.0005132164938301299,
      "loss": 0.4578,
      "num_input_tokens_seen": 13528744,
      "step": 20700
    },
    {
      "epoch": 10.85167714884696,
      "grad_norm": 0.16120538115501404,
      "learning_rate": 0.0005129878866627271,
      "loss": 0.4739,
      "num_input_tokens_seen": 13531304,
      "step": 20705
    },
    {
      "epoch": 10.854297693920335,
      "grad_norm": 0.10759351402521133,
      "learning_rate": 0.0005127592767784063,
      "loss": 0.5113,
      "num_input_tokens_seen": 13534696,
      "step": 20710
    },
    {
      "epoch": 10.85691823899371,
      "grad_norm": 0.11774514615535736,
      "learning_rate": 0.0005125306642249905,
      "loss": 0.4956,
      "num_input_tokens_seen": 13537672,
      "step": 20715
    },
    {
      "epoch": 10.859538784067086,
      "grad_norm": 0.08534728735685349,
      "learning_rate": 0.0005123020490503027,
      "loss": 0.444,
      "num_input_tokens_seen": 13542504,
      "step": 20720
    },
    {
      "epoch": 10.86215932914046,
      "grad_norm": 0.16280804574489594,
      "learning_rate": 0.0005120734313021665,
      "loss": 0.3137,
      "num_input_tokens_seen": 13545544,
      "step": 20725
    },
    {
      "epoch": 10.864779874213836,
      "grad_norm": 0.11393792182207108,
      "learning_rate": 0.0005118448110284063,
      "loss": 0.4632,
      "num_input_tokens_seen": 13551336,
      "step": 20730
    },
    {
      "epoch": 10.867400419287211,
      "grad_norm": 0.18721574544906616,
      "learning_rate": 0.0005116161882768469,
      "loss": 0.4535,
      "num_input_tokens_seen": 13554952,
      "step": 20735
    },
    {
      "epoch": 10.870020964360586,
      "grad_norm": 0.12760163843631744,
      "learning_rate": 0.0005113875630953131,
      "loss": 0.4467,
      "num_input_tokens_seen": 13557864,
      "step": 20740
    },
    {
      "epoch": 10.872641509433961,
      "grad_norm": 0.0965682864189148,
      "learning_rate": 0.0005111589355316314,
      "loss": 0.5521,
      "num_input_tokens_seen": 13561096,
      "step": 20745
    },
    {
      "epoch": 10.875262054507338,
      "grad_norm": 0.10654203593730927,
      "learning_rate": 0.0005109303056336274,
      "loss": 0.515,
      "num_input_tokens_seen": 13565000,
      "step": 20750
    },
    {
      "epoch": 10.877882599580714,
      "grad_norm": 0.12076138705015182,
      "learning_rate": 0.0005107016734491281,
      "loss": 0.3748,
      "num_input_tokens_seen": 13568360,
      "step": 20755
    },
    {
      "epoch": 10.880503144654089,
      "grad_norm": 0.09792131930589676,
      "learning_rate": 0.0005104730390259611,
      "loss": 0.4952,
      "num_input_tokens_seen": 13572168,
      "step": 20760
    },
    {
      "epoch": 10.883123689727464,
      "grad_norm": 0.08994694799184799,
      "learning_rate": 0.0005102444024119537,
      "loss": 0.3839,
      "num_input_tokens_seen": 13575144,
      "step": 20765
    },
    {
      "epoch": 10.885744234800839,
      "grad_norm": 0.1161663755774498,
      "learning_rate": 0.0005100157636549342,
      "loss": 0.3985,
      "num_input_tokens_seen": 13581832,
      "step": 20770
    },
    {
      "epoch": 10.888364779874214,
      "grad_norm": 0.07259461283683777,
      "learning_rate": 0.0005097871228027312,
      "loss": 0.3951,
      "num_input_tokens_seen": 13585096,
      "step": 20775
    },
    {
      "epoch": 10.89098532494759,
      "grad_norm": 0.18077322840690613,
      "learning_rate": 0.0005095584799031736,
      "loss": 0.4891,
      "num_input_tokens_seen": 13588328,
      "step": 20780
    },
    {
      "epoch": 10.893605870020965,
      "grad_norm": 0.08703721314668655,
      "learning_rate": 0.0005093298350040912,
      "loss": 0.4535,
      "num_input_tokens_seen": 13592744,
      "step": 20785
    },
    {
      "epoch": 10.89622641509434,
      "grad_norm": 0.1136862188577652,
      "learning_rate": 0.0005091011881533139,
      "loss": 0.4336,
      "num_input_tokens_seen": 13596232,
      "step": 20790
    },
    {
      "epoch": 10.898846960167715,
      "grad_norm": 0.14855635166168213,
      "learning_rate": 0.0005088725393986716,
      "loss": 0.4592,
      "num_input_tokens_seen": 13599880,
      "step": 20795
    },
    {
      "epoch": 10.90146750524109,
      "grad_norm": 0.10401368886232376,
      "learning_rate": 0.0005086438887879955,
      "loss": 0.5766,
      "num_input_tokens_seen": 13603560,
      "step": 20800
    },
    {
      "epoch": 10.904088050314465,
      "grad_norm": 0.11501307040452957,
      "learning_rate": 0.0005084152363691164,
      "loss": 0.434,
      "num_input_tokens_seen": 13606152,
      "step": 20805
    },
    {
      "epoch": 10.90670859538784,
      "grad_norm": 0.0959232747554779,
      "learning_rate": 0.0005081865821898658,
      "loss": 0.4192,
      "num_input_tokens_seen": 13609864,
      "step": 20810
    },
    {
      "epoch": 10.909329140461216,
      "grad_norm": 0.08692612498998642,
      "learning_rate": 0.0005079579262980756,
      "loss": 0.4465,
      "num_input_tokens_seen": 13612424,
      "step": 20815
    },
    {
      "epoch": 10.91194968553459,
      "grad_norm": 0.13290955126285553,
      "learning_rate": 0.0005077292687415781,
      "loss": 0.5727,
      "num_input_tokens_seen": 13615496,
      "step": 20820
    },
    {
      "epoch": 10.914570230607966,
      "grad_norm": 0.10474244505167007,
      "learning_rate": 0.0005075006095682056,
      "loss": 0.5685,
      "num_input_tokens_seen": 13618248,
      "step": 20825
    },
    {
      "epoch": 10.917190775681341,
      "grad_norm": 0.07365032285451889,
      "learning_rate": 0.0005072719488257914,
      "loss": 0.6693,
      "num_input_tokens_seen": 13622088,
      "step": 20830
    },
    {
      "epoch": 10.919811320754716,
      "grad_norm": 0.08977555483579636,
      "learning_rate": 0.0005070432865621683,
      "loss": 0.369,
      "num_input_tokens_seen": 13625544,
      "step": 20835
    },
    {
      "epoch": 10.922431865828091,
      "grad_norm": 0.057825520634651184,
      "learning_rate": 0.00050681462282517,
      "loss": 0.4214,
      "num_input_tokens_seen": 13629896,
      "step": 20840
    },
    {
      "epoch": 10.925052410901468,
      "grad_norm": 0.06444096565246582,
      "learning_rate": 0.0005065859576626304,
      "loss": 0.4876,
      "num_input_tokens_seen": 13632936,
      "step": 20845
    },
    {
      "epoch": 10.927672955974844,
      "grad_norm": 0.13258090615272522,
      "learning_rate": 0.0005063572911223836,
      "loss": 0.4151,
      "num_input_tokens_seen": 13635176,
      "step": 20850
    },
    {
      "epoch": 10.930293501048219,
      "grad_norm": 0.07437610626220703,
      "learning_rate": 0.0005061286232522639,
      "loss": 0.4059,
      "num_input_tokens_seen": 13638376,
      "step": 20855
    },
    {
      "epoch": 10.932914046121594,
      "grad_norm": 0.15778431296348572,
      "learning_rate": 0.0005058999541001064,
      "loss": 0.3864,
      "num_input_tokens_seen": 13641832,
      "step": 20860
    },
    {
      "epoch": 10.935534591194969,
      "grad_norm": 0.13641005754470825,
      "learning_rate": 0.0005056712837137456,
      "loss": 0.3907,
      "num_input_tokens_seen": 13644872,
      "step": 20865
    },
    {
      "epoch": 10.938155136268344,
      "grad_norm": 0.12108711153268814,
      "learning_rate": 0.000505442612141017,
      "loss": 0.44,
      "num_input_tokens_seen": 13648776,
      "step": 20870
    },
    {
      "epoch": 10.94077568134172,
      "grad_norm": 0.23613540828227997,
      "learning_rate": 0.000505213939429756,
      "loss": 0.481,
      "num_input_tokens_seen": 13652648,
      "step": 20875
    },
    {
      "epoch": 10.943396226415095,
      "grad_norm": 0.13396500051021576,
      "learning_rate": 0.0005049852656277984,
      "loss": 0.446,
      "num_input_tokens_seen": 13656040,
      "step": 20880
    },
    {
      "epoch": 10.94601677148847,
      "grad_norm": 0.1479022204875946,
      "learning_rate": 0.0005047565907829801,
      "loss": 0.4642,
      "num_input_tokens_seen": 13658888,
      "step": 20885
    },
    {
      "epoch": 10.948637316561845,
      "grad_norm": 0.08244040608406067,
      "learning_rate": 0.0005045279149431374,
      "loss": 0.369,
      "num_input_tokens_seen": 13661736,
      "step": 20890
    },
    {
      "epoch": 10.95125786163522,
      "grad_norm": 0.08639650046825409,
      "learning_rate": 0.0005042992381561063,
      "loss": 0.3748,
      "num_input_tokens_seen": 13664872,
      "step": 20895
    },
    {
      "epoch": 10.953878406708595,
      "grad_norm": 0.1439073383808136,
      "learning_rate": 0.0005040705604697238,
      "loss": 0.4011,
      "num_input_tokens_seen": 13668488,
      "step": 20900
    },
    {
      "epoch": 10.95649895178197,
      "grad_norm": 0.09336064010858536,
      "learning_rate": 0.0005038418819318265,
      "loss": 0.4097,
      "num_input_tokens_seen": 13671528,
      "step": 20905
    },
    {
      "epoch": 10.959119496855346,
      "grad_norm": 0.08631015568971634,
      "learning_rate": 0.0005036132025902511,
      "loss": 0.4055,
      "num_input_tokens_seen": 13674280,
      "step": 20910
    },
    {
      "epoch": 10.96174004192872,
      "grad_norm": 0.13933254778385162,
      "learning_rate": 0.0005033845224928352,
      "loss": 0.3658,
      "num_input_tokens_seen": 13677832,
      "step": 20915
    },
    {
      "epoch": 10.964360587002096,
      "grad_norm": 0.13294845819473267,
      "learning_rate": 0.0005031558416874156,
      "loss": 0.401,
      "num_input_tokens_seen": 13680392,
      "step": 20920
    },
    {
      "epoch": 10.966981132075471,
      "grad_norm": 0.08895543962717056,
      "learning_rate": 0.0005029271602218301,
      "loss": 0.5694,
      "num_input_tokens_seen": 13684584,
      "step": 20925
    },
    {
      "epoch": 10.969601677148846,
      "grad_norm": 0.07093052566051483,
      "learning_rate": 0.0005026984781439162,
      "loss": 0.4197,
      "num_input_tokens_seen": 13687592,
      "step": 20930
    },
    {
      "epoch": 10.972222222222221,
      "grad_norm": 0.12049390375614166,
      "learning_rate": 0.0005024697955015112,
      "loss": 0.5055,
      "num_input_tokens_seen": 13691816,
      "step": 20935
    },
    {
      "epoch": 10.974842767295598,
      "grad_norm": 0.11412769556045532,
      "learning_rate": 0.0005022411123424532,
      "loss": 0.3815,
      "num_input_tokens_seen": 13695432,
      "step": 20940
    },
    {
      "epoch": 10.977463312368974,
      "grad_norm": 0.09520713239908218,
      "learning_rate": 0.00050201242871458,
      "loss": 0.4622,
      "num_input_tokens_seen": 13699272,
      "step": 20945
    },
    {
      "epoch": 10.980083857442349,
      "grad_norm": 0.18947432935237885,
      "learning_rate": 0.0005017837446657298,
      "loss": 0.4678,
      "num_input_tokens_seen": 13702568,
      "step": 20950
    },
    {
      "epoch": 10.982704402515724,
      "grad_norm": 0.10991007089614868,
      "learning_rate": 0.0005015550602437405,
      "loss": 0.6972,
      "num_input_tokens_seen": 13706216,
      "step": 20955
    },
    {
      "epoch": 10.985324947589099,
      "grad_norm": 0.10633692145347595,
      "learning_rate": 0.0005013263754964504,
      "loss": 0.4631,
      "num_input_tokens_seen": 13709832,
      "step": 20960
    },
    {
      "epoch": 10.987945492662474,
      "grad_norm": 0.10983676463365555,
      "learning_rate": 0.0005010976904716977,
      "loss": 0.4789,
      "num_input_tokens_seen": 13713128,
      "step": 20965
    },
    {
      "epoch": 10.99056603773585,
      "grad_norm": 0.04978736862540245,
      "learning_rate": 0.0005008690052173206,
      "loss": 0.4704,
      "num_input_tokens_seen": 13716008,
      "step": 20970
    },
    {
      "epoch": 10.993186582809225,
      "grad_norm": 0.2557474970817566,
      "learning_rate": 0.0005006403197811575,
      "loss": 0.5665,
      "num_input_tokens_seen": 13719304,
      "step": 20975
    },
    {
      "epoch": 10.9958071278826,
      "grad_norm": 0.10938739776611328,
      "learning_rate": 0.0005004116342110469,
      "loss": 0.661,
      "num_input_tokens_seen": 13721704,
      "step": 20980
    },
    {
      "epoch": 10.998427672955975,
      "grad_norm": 0.12041494995355606,
      "learning_rate": 0.0005001829485548272,
      "loss": 0.4192,
      "num_input_tokens_seen": 13724456,
      "step": 20985
    },
    {
      "epoch": 11.0,
      "eval_loss": 0.45003077387809753,
      "eval_runtime": 13.2526,
      "eval_samples_per_second": 63.987,
      "eval_steps_per_second": 15.997,
      "num_input_tokens_seen": 13725560,
      "step": 20988
    },
    {
      "epoch": 11.00104821802935,
      "grad_norm": 0.19083772599697113,
      "learning_rate": 0.0004999542628603364,
      "loss": 0.3303,
      "num_input_tokens_seen": 13726872,
      "step": 20990
    },
    {
      "epoch": 11.003668763102725,
      "grad_norm": 0.06898320466279984,
      "learning_rate": 0.0004997255771754136,
      "loss": 0.3405,
      "num_input_tokens_seen": 13729944,
      "step": 20995
    },
    {
      "epoch": 11.0062893081761,
      "grad_norm": 0.1190304160118103,
      "learning_rate": 0.0004994968915478969,
      "loss": 0.4241,
      "num_input_tokens_seen": 13732472,
      "step": 21000
    },
    {
      "epoch": 11.008909853249476,
      "grad_norm": 0.1642341911792755,
      "learning_rate": 0.0004992682060256246,
      "loss": 0.5389,
      "num_input_tokens_seen": 13735704,
      "step": 21005
    },
    {
      "epoch": 11.01153039832285,
      "grad_norm": 0.22130274772644043,
      "learning_rate": 0.0004990395206564353,
      "loss": 0.4618,
      "num_input_tokens_seen": 13738392,
      "step": 21010
    },
    {
      "epoch": 11.014150943396226,
      "grad_norm": 0.12109347432851791,
      "learning_rate": 0.0004988108354881674,
      "loss": 0.39,
      "num_input_tokens_seen": 13741336,
      "step": 21015
    },
    {
      "epoch": 11.016771488469601,
      "grad_norm": 0.10551699250936508,
      "learning_rate": 0.0004985821505686591,
      "loss": 0.4124,
      "num_input_tokens_seen": 13744888,
      "step": 21020
    },
    {
      "epoch": 11.019392033542976,
      "grad_norm": 0.17160670459270477,
      "learning_rate": 0.0004983534659457489,
      "loss": 0.4334,
      "num_input_tokens_seen": 13747512,
      "step": 21025
    },
    {
      "epoch": 11.022012578616351,
      "grad_norm": 0.15433268249034882,
      "learning_rate": 0.0004981247816672745,
      "loss": 0.3683,
      "num_input_tokens_seen": 13750456,
      "step": 21030
    },
    {
      "epoch": 11.024633123689727,
      "grad_norm": 0.11937643587589264,
      "learning_rate": 0.0004978960977810746,
      "loss": 0.4125,
      "num_input_tokens_seen": 13753912,
      "step": 21035
    },
    {
      "epoch": 11.027253668763104,
      "grad_norm": 0.0666327103972435,
      "learning_rate": 0.0004976674143349869,
      "loss": 0.4023,
      "num_input_tokens_seen": 13758232,
      "step": 21040
    },
    {
      "epoch": 11.029874213836479,
      "grad_norm": 0.15236803889274597,
      "learning_rate": 0.0004974387313768497,
      "loss": 0.4723,
      "num_input_tokens_seen": 13760728,
      "step": 21045
    },
    {
      "epoch": 11.032494758909854,
      "grad_norm": 0.20314842462539673,
      "learning_rate": 0.0004972100489545007,
      "loss": 0.4621,
      "num_input_tokens_seen": 13763640,
      "step": 21050
    },
    {
      "epoch": 11.035115303983229,
      "grad_norm": 0.11733464151620865,
      "learning_rate": 0.0004969813671157774,
      "loss": 0.546,
      "num_input_tokens_seen": 13766968,
      "step": 21055
    },
    {
      "epoch": 11.037735849056604,
      "grad_norm": 0.10882466286420822,
      "learning_rate": 0.0004967526859085177,
      "loss": 0.4095,
      "num_input_tokens_seen": 13770104,
      "step": 21060
    },
    {
      "epoch": 11.04035639412998,
      "grad_norm": 0.1254006326198578,
      "learning_rate": 0.0004965240053805591,
      "loss": 0.4438,
      "num_input_tokens_seen": 13774392,
      "step": 21065
    },
    {
      "epoch": 11.042976939203355,
      "grad_norm": 0.07586327940225601,
      "learning_rate": 0.000496295325579739,
      "loss": 0.399,
      "num_input_tokens_seen": 13778360,
      "step": 21070
    },
    {
      "epoch": 11.04559748427673,
      "grad_norm": 0.06259998679161072,
      "learning_rate": 0.0004960666465538945,
      "loss": 0.3506,
      "num_input_tokens_seen": 13782360,
      "step": 21075
    },
    {
      "epoch": 11.048218029350105,
      "grad_norm": 0.049878403544425964,
      "learning_rate": 0.0004958379683508627,
      "loss": 0.3398,
      "num_input_tokens_seen": 13785848,
      "step": 21080
    },
    {
      "epoch": 11.05083857442348,
      "grad_norm": 0.3194023668766022,
      "learning_rate": 0.0004956092910184803,
      "loss": 0.3821,
      "num_input_tokens_seen": 13788504,
      "step": 21085
    },
    {
      "epoch": 11.053459119496855,
      "grad_norm": 0.1208333820104599,
      "learning_rate": 0.0004953806146045843,
      "loss": 0.4985,
      "num_input_tokens_seen": 13791064,
      "step": 21090
    },
    {
      "epoch": 11.05607966457023,
      "grad_norm": 0.11297622323036194,
      "learning_rate": 0.0004951519391570108,
      "loss": 0.4312,
      "num_input_tokens_seen": 13794200,
      "step": 21095
    },
    {
      "epoch": 11.058700209643606,
      "grad_norm": 0.07488738000392914,
      "learning_rate": 0.0004949232647235964,
      "loss": 0.4075,
      "num_input_tokens_seen": 13798232,
      "step": 21100
    },
    {
      "epoch": 11.06132075471698,
      "grad_norm": 0.10363969206809998,
      "learning_rate": 0.0004946945913521771,
      "loss": 0.5003,
      "num_input_tokens_seen": 13802040,
      "step": 21105
    },
    {
      "epoch": 11.063941299790356,
      "grad_norm": 0.10075095295906067,
      "learning_rate": 0.0004944659190905889,
      "loss": 0.3807,
      "num_input_tokens_seen": 13805048,
      "step": 21110
    },
    {
      "epoch": 11.066561844863731,
      "grad_norm": 0.08603992313146591,
      "learning_rate": 0.0004942372479866674,
      "loss": 0.3668,
      "num_input_tokens_seen": 13807608,
      "step": 21115
    },
    {
      "epoch": 11.069182389937106,
      "grad_norm": 0.19843605160713196,
      "learning_rate": 0.0004940085780882475,
      "loss": 0.4763,
      "num_input_tokens_seen": 13811576,
      "step": 21120
    },
    {
      "epoch": 11.071802935010481,
      "grad_norm": 0.13457608222961426,
      "learning_rate": 0.0004937799094431649,
      "loss": 0.4495,
      "num_input_tokens_seen": 13814360,
      "step": 21125
    },
    {
      "epoch": 11.074423480083857,
      "grad_norm": 0.09195362031459808,
      "learning_rate": 0.0004935512420992542,
      "loss": 0.3557,
      "num_input_tokens_seen": 13817688,
      "step": 21130
    },
    {
      "epoch": 11.077044025157234,
      "grad_norm": 0.12991096079349518,
      "learning_rate": 0.0004933225761043502,
      "loss": 0.3318,
      "num_input_tokens_seen": 13821016,
      "step": 21135
    },
    {
      "epoch": 11.079664570230609,
      "grad_norm": 0.11352216452360153,
      "learning_rate": 0.0004930939115062872,
      "loss": 0.4035,
      "num_input_tokens_seen": 13823640,
      "step": 21140
    },
    {
      "epoch": 11.082285115303984,
      "grad_norm": 0.14418645203113556,
      "learning_rate": 0.0004928652483528989,
      "loss": 0.4968,
      "num_input_tokens_seen": 13826328,
      "step": 21145
    },
    {
      "epoch": 11.084905660377359,
      "grad_norm": 0.08431882411241531,
      "learning_rate": 0.0004926365866920193,
      "loss": 0.4366,
      "num_input_tokens_seen": 13829528,
      "step": 21150
    },
    {
      "epoch": 11.087526205450734,
      "grad_norm": 0.1262768805027008,
      "learning_rate": 0.0004924079265714817,
      "loss": 0.4774,
      "num_input_tokens_seen": 13832760,
      "step": 21155
    },
    {
      "epoch": 11.09014675052411,
      "grad_norm": 0.06600227952003479,
      "learning_rate": 0.0004921792680391193,
      "loss": 0.3815,
      "num_input_tokens_seen": 13836664,
      "step": 21160
    },
    {
      "epoch": 11.092767295597485,
      "grad_norm": 0.11197004467248917,
      "learning_rate": 0.0004919506111427649,
      "loss": 0.5184,
      "num_input_tokens_seen": 13840408,
      "step": 21165
    },
    {
      "epoch": 11.09538784067086,
      "grad_norm": 0.13785958290100098,
      "learning_rate": 0.0004917219559302507,
      "loss": 0.4239,
      "num_input_tokens_seen": 13842968,
      "step": 21170
    },
    {
      "epoch": 11.098008385744235,
      "grad_norm": 0.11707060784101486,
      "learning_rate": 0.0004914933024494089,
      "loss": 0.4477,
      "num_input_tokens_seen": 13845496,
      "step": 21175
    },
    {
      "epoch": 11.10062893081761,
      "grad_norm": 0.1776847392320633,
      "learning_rate": 0.0004912646507480713,
      "loss": 0.4808,
      "num_input_tokens_seen": 13848120,
      "step": 21180
    },
    {
      "epoch": 11.103249475890985,
      "grad_norm": 0.09938351809978485,
      "learning_rate": 0.0004910360008740689,
      "loss": 0.4517,
      "num_input_tokens_seen": 13851576,
      "step": 21185
    },
    {
      "epoch": 11.10587002096436,
      "grad_norm": 0.12444191426038742,
      "learning_rate": 0.0004908073528752329,
      "loss": 0.4456,
      "num_input_tokens_seen": 13855064,
      "step": 21190
    },
    {
      "epoch": 11.108490566037736,
      "grad_norm": 0.07392849773168564,
      "learning_rate": 0.0004905787067993941,
      "loss": 0.362,
      "num_input_tokens_seen": 13859864,
      "step": 21195
    },
    {
      "epoch": 11.11111111111111,
      "grad_norm": 0.10050684958696365,
      "learning_rate": 0.000490350062694382,
      "loss": 0.3655,
      "num_input_tokens_seen": 13863000,
      "step": 21200
    },
    {
      "epoch": 11.113731656184486,
      "grad_norm": 0.07494350522756577,
      "learning_rate": 0.0004901214206080269,
      "loss": 0.4655,
      "num_input_tokens_seen": 13868280,
      "step": 21205
    },
    {
      "epoch": 11.116352201257861,
      "grad_norm": 0.13086305558681488,
      "learning_rate": 0.0004898927805881577,
      "loss": 0.5231,
      "num_input_tokens_seen": 13871640,
      "step": 21210
    },
    {
      "epoch": 11.118972746331236,
      "grad_norm": 0.21296119689941406,
      "learning_rate": 0.0004896641426826036,
      "loss": 0.5189,
      "num_input_tokens_seen": 13873752,
      "step": 21215
    },
    {
      "epoch": 11.121593291404611,
      "grad_norm": 0.17411348223686218,
      "learning_rate": 0.0004894355069391931,
      "loss": 0.4162,
      "num_input_tokens_seen": 13876888,
      "step": 21220
    },
    {
      "epoch": 11.124213836477987,
      "grad_norm": 0.11788411438465118,
      "learning_rate": 0.0004892068734057538,
      "loss": 0.4168,
      "num_input_tokens_seen": 13879416,
      "step": 21225
    },
    {
      "epoch": 11.126834381551364,
      "grad_norm": 0.12552396953105927,
      "learning_rate": 0.0004889782421301134,
      "loss": 0.4439,
      "num_input_tokens_seen": 13883736,
      "step": 21230
    },
    {
      "epoch": 11.129454926624739,
      "grad_norm": 0.15690003335475922,
      "learning_rate": 0.0004887496131600991,
      "loss": 0.4886,
      "num_input_tokens_seen": 13886392,
      "step": 21235
    },
    {
      "epoch": 11.132075471698114,
      "grad_norm": 0.06839964538812637,
      "learning_rate": 0.0004885209865435373,
      "loss": 0.4074,
      "num_input_tokens_seen": 13890680,
      "step": 21240
    },
    {
      "epoch": 11.134696016771489,
      "grad_norm": 0.06251619756221771,
      "learning_rate": 0.0004882923623282543,
      "loss": 0.3899,
      "num_input_tokens_seen": 13894200,
      "step": 21245
    },
    {
      "epoch": 11.137316561844864,
      "grad_norm": 0.10276373475790024,
      "learning_rate": 0.0004880637405620756,
      "loss": 0.3166,
      "num_input_tokens_seen": 13896728,
      "step": 21250
    },
    {
      "epoch": 11.13993710691824,
      "grad_norm": 0.10550842434167862,
      "learning_rate": 0.00048783512129282604,
      "loss": 0.3838,
      "num_input_tokens_seen": 13899288,
      "step": 21255
    },
    {
      "epoch": 11.142557651991615,
      "grad_norm": 0.10934006422758102,
      "learning_rate": 0.00048760650456833033,
      "loss": 0.5874,
      "num_input_tokens_seen": 13903384,
      "step": 21260
    },
    {
      "epoch": 11.14517819706499,
      "grad_norm": 0.09653791785240173,
      "learning_rate": 0.0004873778904364125,
      "loss": 0.4164,
      "num_input_tokens_seen": 13906488,
      "step": 21265
    },
    {
      "epoch": 11.147798742138365,
      "grad_norm": 0.10681689530611038,
      "learning_rate": 0.00048714927894489597,
      "loss": 0.3878,
      "num_input_tokens_seen": 13909720,
      "step": 21270
    },
    {
      "epoch": 11.15041928721174,
      "grad_norm": 0.13514067232608795,
      "learning_rate": 0.00048692067014160357,
      "loss": 0.4751,
      "num_input_tokens_seen": 13913496,
      "step": 21275
    },
    {
      "epoch": 11.153039832285115,
      "grad_norm": 0.14288832247257233,
      "learning_rate": 0.00048669206407435806,
      "loss": 0.5861,
      "num_input_tokens_seen": 13915928,
      "step": 21280
    },
    {
      "epoch": 11.15566037735849,
      "grad_norm": 0.1604946106672287,
      "learning_rate": 0.00048646346079098075,
      "loss": 0.6068,
      "num_input_tokens_seen": 13919512,
      "step": 21285
    },
    {
      "epoch": 11.158280922431866,
      "grad_norm": 0.20496606826782227,
      "learning_rate": 0.0004862348603392929,
      "loss": 0.4662,
      "num_input_tokens_seen": 13922232,
      "step": 21290
    },
    {
      "epoch": 11.16090146750524,
      "grad_norm": 0.11474661529064178,
      "learning_rate": 0.0004860062627671154,
      "loss": 0.5302,
      "num_input_tokens_seen": 13925624,
      "step": 21295
    },
    {
      "epoch": 11.163522012578616,
      "grad_norm": 0.08643634617328644,
      "learning_rate": 0.0004857776681222679,
      "loss": 0.5311,
      "num_input_tokens_seen": 13929208,
      "step": 21300
    },
    {
      "epoch": 11.166142557651991,
      "grad_norm": 0.09944095462560654,
      "learning_rate": 0.00048554907645257024,
      "loss": 0.3962,
      "num_input_tokens_seen": 13932952,
      "step": 21305
    },
    {
      "epoch": 11.168763102725366,
      "grad_norm": 0.1179737001657486,
      "learning_rate": 0.0004853204878058407,
      "loss": 0.4028,
      "num_input_tokens_seen": 13935416,
      "step": 21310
    },
    {
      "epoch": 11.171383647798741,
      "grad_norm": 0.14129719138145447,
      "learning_rate": 0.0004850919022298977,
      "loss": 0.4416,
      "num_input_tokens_seen": 13938424,
      "step": 21315
    },
    {
      "epoch": 11.174004192872117,
      "grad_norm": 0.14438951015472412,
      "learning_rate": 0.0004848633197725586,
      "loss": 0.391,
      "num_input_tokens_seen": 13941112,
      "step": 21320
    },
    {
      "epoch": 11.176624737945493,
      "grad_norm": 0.07742893695831299,
      "learning_rate": 0.0004846347404816404,
      "loss": 0.566,
      "num_input_tokens_seen": 13944344,
      "step": 21325
    },
    {
      "epoch": 11.179245283018869,
      "grad_norm": 0.10261467844247818,
      "learning_rate": 0.0004844061644049591,
      "loss": 0.5309,
      "num_input_tokens_seen": 13947096,
      "step": 21330
    },
    {
      "epoch": 11.181865828092244,
      "grad_norm": 0.10823942720890045,
      "learning_rate": 0.0004841775915903305,
      "loss": 0.4217,
      "num_input_tokens_seen": 13950264,
      "step": 21335
    },
    {
      "epoch": 11.184486373165619,
      "grad_norm": 0.08165250718593597,
      "learning_rate": 0.00048394902208556917,
      "loss": 0.411,
      "num_input_tokens_seen": 13953656,
      "step": 21340
    },
    {
      "epoch": 11.187106918238994,
      "grad_norm": 0.14584091305732727,
      "learning_rate": 0.0004837204559384892,
      "loss": 0.4149,
      "num_input_tokens_seen": 13956920,
      "step": 21345
    },
    {
      "epoch": 11.18972746331237,
      "grad_norm": 0.12363503128290176,
      "learning_rate": 0.0004834918931969042,
      "loss": 0.4165,
      "num_input_tokens_seen": 13961208,
      "step": 21350
    },
    {
      "epoch": 11.192348008385745,
      "grad_norm": 0.1332332044839859,
      "learning_rate": 0.0004832633339086267,
      "loss": 0.6531,
      "num_input_tokens_seen": 13964216,
      "step": 21355
    },
    {
      "epoch": 11.19496855345912,
      "grad_norm": 0.12686961889266968,
      "learning_rate": 0.0004830347781214689,
      "loss": 0.5031,
      "num_input_tokens_seen": 13967192,
      "step": 21360
    },
    {
      "epoch": 11.197589098532495,
      "grad_norm": 0.5731671452522278,
      "learning_rate": 0.0004828062258832421,
      "loss": 0.5613,
      "num_input_tokens_seen": 13969624,
      "step": 21365
    },
    {
      "epoch": 11.20020964360587,
      "grad_norm": 0.10846829414367676,
      "learning_rate": 0.0004825776772417564,
      "loss": 0.4656,
      "num_input_tokens_seen": 13972312,
      "step": 21370
    },
    {
      "epoch": 11.202830188679245,
      "grad_norm": 0.12689729034900665,
      "learning_rate": 0.00048234913224482205,
      "loss": 0.32,
      "num_input_tokens_seen": 13974712,
      "step": 21375
    },
    {
      "epoch": 11.20545073375262,
      "grad_norm": 0.0886463150382042,
      "learning_rate": 0.00048212059094024774,
      "loss": 0.4949,
      "num_input_tokens_seen": 13978552,
      "step": 21380
    },
    {
      "epoch": 11.208071278825996,
      "grad_norm": 0.13350297510623932,
      "learning_rate": 0.0004818920533758418,
      "loss": 0.4862,
      "num_input_tokens_seen": 13982424,
      "step": 21385
    },
    {
      "epoch": 11.21069182389937,
      "grad_norm": 0.18057121336460114,
      "learning_rate": 0.00048166351959941185,
      "loss": 0.4608,
      "num_input_tokens_seen": 13985112,
      "step": 21390
    },
    {
      "epoch": 11.213312368972746,
      "grad_norm": 0.21981602907180786,
      "learning_rate": 0.0004814349896587645,
      "loss": 0.3183,
      "num_input_tokens_seen": 13987640,
      "step": 21395
    },
    {
      "epoch": 11.215932914046121,
      "grad_norm": 0.14820963144302368,
      "learning_rate": 0.0004812064636017053,
      "loss": 0.407,
      "num_input_tokens_seen": 13990648,
      "step": 21400
    },
    {
      "epoch": 11.218553459119496,
      "grad_norm": 0.12148845940828323,
      "learning_rate": 0.0004809779414760396,
      "loss": 0.493,
      "num_input_tokens_seen": 13994360,
      "step": 21405
    },
    {
      "epoch": 11.221174004192871,
      "grad_norm": 0.09546104073524475,
      "learning_rate": 0.00048074942332957136,
      "loss": 0.402,
      "num_input_tokens_seen": 13997592,
      "step": 21410
    },
    {
      "epoch": 11.223794549266247,
      "grad_norm": 0.1298767775297165,
      "learning_rate": 0.00048052090921010435,
      "loss": 0.4234,
      "num_input_tokens_seen": 14000600,
      "step": 21415
    },
    {
      "epoch": 11.226415094339623,
      "grad_norm": 0.06435517966747284,
      "learning_rate": 0.00048029239916544094,
      "loss": 0.4896,
      "num_input_tokens_seen": 14005560,
      "step": 21420
    },
    {
      "epoch": 11.229035639412999,
      "grad_norm": 0.12186601758003235,
      "learning_rate": 0.0004800638932433826,
      "loss": 0.4625,
      "num_input_tokens_seen": 14008920,
      "step": 21425
    },
    {
      "epoch": 11.231656184486374,
      "grad_norm": 0.12159223854541779,
      "learning_rate": 0.00047983539149173043,
      "loss": 0.5533,
      "num_input_tokens_seen": 14011448,
      "step": 21430
    },
    {
      "epoch": 11.234276729559749,
      "grad_norm": 0.10088349133729935,
      "learning_rate": 0.0004796068939582843,
      "loss": 0.3728,
      "num_input_tokens_seen": 14015000,
      "step": 21435
    },
    {
      "epoch": 11.236897274633124,
      "grad_norm": 0.08320272713899612,
      "learning_rate": 0.00047937840069084333,
      "loss": 0.4491,
      "num_input_tokens_seen": 14019640,
      "step": 21440
    },
    {
      "epoch": 11.2395178197065,
      "grad_norm": 0.09628184139728546,
      "learning_rate": 0.0004791499117372056,
      "loss": 0.5058,
      "num_input_tokens_seen": 14023032,
      "step": 21445
    },
    {
      "epoch": 11.242138364779874,
      "grad_norm": 0.09488659352064133,
      "learning_rate": 0.0004789214271451686,
      "loss": 0.501,
      "num_input_tokens_seen": 14026040,
      "step": 21450
    },
    {
      "epoch": 11.24475890985325,
      "grad_norm": 0.10933215916156769,
      "learning_rate": 0.00047869294696252854,
      "loss": 0.4846,
      "num_input_tokens_seen": 14029400,
      "step": 21455
    },
    {
      "epoch": 11.247379454926625,
      "grad_norm": 0.11296506971120834,
      "learning_rate": 0.0004784644712370807,
      "loss": 0.5367,
      "num_input_tokens_seen": 14032664,
      "step": 21460
    },
    {
      "epoch": 11.25,
      "grad_norm": 0.14559051394462585,
      "learning_rate": 0.00047823600001661984,
      "loss": 0.4814,
      "num_input_tokens_seen": 14035320,
      "step": 21465
    },
    {
      "epoch": 11.252620545073375,
      "grad_norm": 0.0792669951915741,
      "learning_rate": 0.0004780075333489396,
      "loss": 0.5293,
      "num_input_tokens_seen": 14038840,
      "step": 21470
    },
    {
      "epoch": 11.25524109014675,
      "grad_norm": 0.10913672298192978,
      "learning_rate": 0.00047777907128183233,
      "loss": 0.503,
      "num_input_tokens_seen": 14042872,
      "step": 21475
    },
    {
      "epoch": 11.257861635220126,
      "grad_norm": 0.13211862742900848,
      "learning_rate": 0.0004775506138630901,
      "loss": 0.5176,
      "num_input_tokens_seen": 14046200,
      "step": 21480
    },
    {
      "epoch": 11.2604821802935,
      "grad_norm": 0.09532283246517181,
      "learning_rate": 0.0004773221611405032,
      "loss": 0.3712,
      "num_input_tokens_seen": 14048984,
      "step": 21485
    },
    {
      "epoch": 11.263102725366876,
      "grad_norm": 0.0771382749080658,
      "learning_rate": 0.0004770937131618614,
      "loss": 0.4118,
      "num_input_tokens_seen": 14051704,
      "step": 21490
    },
    {
      "epoch": 11.265723270440251,
      "grad_norm": 0.12665775418281555,
      "learning_rate": 0.0004768652699749535,
      "loss": 0.3715,
      "num_input_tokens_seen": 14054264,
      "step": 21495
    },
    {
      "epoch": 11.268343815513626,
      "grad_norm": 0.07741480320692062,
      "learning_rate": 0.00047663683162756717,
      "loss": 0.4808,
      "num_input_tokens_seen": 14057336,
      "step": 21500
    },
    {
      "epoch": 11.270964360587001,
      "grad_norm": 0.13618586957454681,
      "learning_rate": 0.00047640839816748926,
      "loss": 0.4183,
      "num_input_tokens_seen": 14061272,
      "step": 21505
    },
    {
      "epoch": 11.273584905660377,
      "grad_norm": 0.1641111522912979,
      "learning_rate": 0.00047617996964250525,
      "loss": 0.3939,
      "num_input_tokens_seen": 14064824,
      "step": 21510
    },
    {
      "epoch": 11.276205450733753,
      "grad_norm": 0.19239668548107147,
      "learning_rate": 0.0004759515461003997,
      "loss": 0.4496,
      "num_input_tokens_seen": 14068280,
      "step": 21515
    },
    {
      "epoch": 11.278825995807129,
      "grad_norm": 0.1381935477256775,
      "learning_rate": 0.00047572312758895654,
      "loss": 0.5593,
      "num_input_tokens_seen": 14071864,
      "step": 21520
    },
    {
      "epoch": 11.281446540880504,
      "grad_norm": 0.1335577368736267,
      "learning_rate": 0.0004754947141559579,
      "loss": 0.5392,
      "num_input_tokens_seen": 14075064,
      "step": 21525
    },
    {
      "epoch": 11.284067085953879,
      "grad_norm": 0.10295926779508591,
      "learning_rate": 0.0004752663058491856,
      "loss": 0.4701,
      "num_input_tokens_seen": 14078360,
      "step": 21530
    },
    {
      "epoch": 11.286687631027254,
      "grad_norm": 0.07824233174324036,
      "learning_rate": 0.0004750379027164201,
      "loss": 0.4509,
      "num_input_tokens_seen": 14081816,
      "step": 21535
    },
    {
      "epoch": 11.28930817610063,
      "grad_norm": 0.06888259202241898,
      "learning_rate": 0.00047480950480544037,
      "loss": 0.4811,
      "num_input_tokens_seen": 14085176,
      "step": 21540
    },
    {
      "epoch": 11.291928721174004,
      "grad_norm": 0.09971319884061813,
      "learning_rate": 0.00047458111216402483,
      "loss": 0.359,
      "num_input_tokens_seen": 14089624,
      "step": 21545
    },
    {
      "epoch": 11.29454926624738,
      "grad_norm": 0.20404575765132904,
      "learning_rate": 0.00047435272483995074,
      "loss": 0.4147,
      "num_input_tokens_seen": 14092088,
      "step": 21550
    },
    {
      "epoch": 11.297169811320755,
      "grad_norm": 0.10118111968040466,
      "learning_rate": 0.00047412434288099386,
      "loss": 0.3342,
      "num_input_tokens_seen": 14095512,
      "step": 21555
    },
    {
      "epoch": 11.29979035639413,
      "grad_norm": 0.08467281609773636,
      "learning_rate": 0.0004738959663349294,
      "loss": 0.454,
      "num_input_tokens_seen": 14099192,
      "step": 21560
    },
    {
      "epoch": 11.302410901467505,
      "grad_norm": 0.10851539671421051,
      "learning_rate": 0.0004736675952495311,
      "loss": 0.701,
      "num_input_tokens_seen": 14102392,
      "step": 21565
    },
    {
      "epoch": 11.30503144654088,
      "grad_norm": 0.08412239700555801,
      "learning_rate": 0.0004734392296725712,
      "loss": 0.3975,
      "num_input_tokens_seen": 14106712,
      "step": 21570
    },
    {
      "epoch": 11.307651991614255,
      "grad_norm": 0.10863389074802399,
      "learning_rate": 0.00047321086965182153,
      "loss": 0.4055,
      "num_input_tokens_seen": 14110008,
      "step": 21575
    },
    {
      "epoch": 11.31027253668763,
      "grad_norm": 0.13804137706756592,
      "learning_rate": 0.0004729825152350522,
      "loss": 0.396,
      "num_input_tokens_seen": 14112632,
      "step": 21580
    },
    {
      "epoch": 11.312893081761006,
      "grad_norm": 0.06658512353897095,
      "learning_rate": 0.00047275416647003256,
      "loss": 0.3712,
      "num_input_tokens_seen": 14117080,
      "step": 21585
    },
    {
      "epoch": 11.315513626834381,
      "grad_norm": 0.07888033986091614,
      "learning_rate": 0.0004725258234045306,
      "loss": 0.4768,
      "num_input_tokens_seen": 14120568,
      "step": 21590
    },
    {
      "epoch": 11.318134171907756,
      "grad_norm": 0.1027083694934845,
      "learning_rate": 0.0004722974860863127,
      "loss": 0.5377,
      "num_input_tokens_seen": 14123448,
      "step": 21595
    },
    {
      "epoch": 11.320754716981131,
      "grad_norm": 0.07861383259296417,
      "learning_rate": 0.00047206915456314476,
      "loss": 0.5562,
      "num_input_tokens_seen": 14128056,
      "step": 21600
    },
    {
      "epoch": 11.323375262054507,
      "grad_norm": 0.09821847081184387,
      "learning_rate": 0.00047184082888279097,
      "loss": 0.496,
      "num_input_tokens_seen": 14130968,
      "step": 21605
    },
    {
      "epoch": 11.325995807127883,
      "grad_norm": 0.1472337394952774,
      "learning_rate": 0.00047161250909301454,
      "loss": 0.4526,
      "num_input_tokens_seen": 14133400,
      "step": 21610
    },
    {
      "epoch": 11.328616352201259,
      "grad_norm": 0.08990936726331711,
      "learning_rate": 0.00047138419524157734,
      "loss": 0.4449,
      "num_input_tokens_seen": 14136056,
      "step": 21615
    },
    {
      "epoch": 11.331236897274634,
      "grad_norm": 0.08643544465303421,
      "learning_rate": 0.0004711558873762402,
      "loss": 0.4659,
      "num_input_tokens_seen": 14139896,
      "step": 21620
    },
    {
      "epoch": 11.333857442348009,
      "grad_norm": 0.08862186223268509,
      "learning_rate": 0.0004709275855447621,
      "loss": 0.5268,
      "num_input_tokens_seen": 14142840,
      "step": 21625
    },
    {
      "epoch": 11.336477987421384,
      "grad_norm": 0.08091826736927032,
      "learning_rate": 0.0004706992897949016,
      "loss": 0.4997,
      "num_input_tokens_seen": 14145688,
      "step": 21630
    },
    {
      "epoch": 11.33909853249476,
      "grad_norm": 0.13001972436904907,
      "learning_rate": 0.00047047100017441525,
      "loss": 0.5041,
      "num_input_tokens_seen": 14148376,
      "step": 21635
    },
    {
      "epoch": 11.341719077568134,
      "grad_norm": 0.20073749125003815,
      "learning_rate": 0.0004702427167310589,
      "loss": 0.4731,
      "num_input_tokens_seen": 14150808,
      "step": 21640
    },
    {
      "epoch": 11.34433962264151,
      "grad_norm": 0.10653724521398544,
      "learning_rate": 0.0004700144395125866,
      "loss": 0.4476,
      "num_input_tokens_seen": 14153848,
      "step": 21645
    },
    {
      "epoch": 11.346960167714885,
      "grad_norm": 0.13375866413116455,
      "learning_rate": 0.00046978616856675173,
      "loss": 0.4047,
      "num_input_tokens_seen": 14157016,
      "step": 21650
    },
    {
      "epoch": 11.34958071278826,
      "grad_norm": 0.09311753511428833,
      "learning_rate": 0.0004695579039413055,
      "loss": 0.3198,
      "num_input_tokens_seen": 14161208,
      "step": 21655
    },
    {
      "epoch": 11.352201257861635,
      "grad_norm": 0.12237062305212021,
      "learning_rate": 0.0004693296456839984,
      "loss": 0.3938,
      "num_input_tokens_seen": 14164344,
      "step": 21660
    },
    {
      "epoch": 11.35482180293501,
      "grad_norm": 0.13325434923171997,
      "learning_rate": 0.0004691013938425796,
      "loss": 0.3278,
      "num_input_tokens_seen": 14166680,
      "step": 21665
    },
    {
      "epoch": 11.357442348008385,
      "grad_norm": 0.08801941573619843,
      "learning_rate": 0.00046887314846479663,
      "loss": 0.2852,
      "num_input_tokens_seen": 14169304,
      "step": 21670
    },
    {
      "epoch": 11.36006289308176,
      "grad_norm": 0.15699149668216705,
      "learning_rate": 0.000468644909598396,
      "loss": 0.5367,
      "num_input_tokens_seen": 14172376,
      "step": 21675
    },
    {
      "epoch": 11.362683438155136,
      "grad_norm": 0.0809955894947052,
      "learning_rate": 0.00046841667729112264,
      "loss": 0.4485,
      "num_input_tokens_seen": 14178104,
      "step": 21680
    },
    {
      "epoch": 11.365303983228511,
      "grad_norm": 0.13057446479797363,
      "learning_rate": 0.00046818845159071987,
      "loss": 0.3713,
      "num_input_tokens_seen": 14181144,
      "step": 21685
    },
    {
      "epoch": 11.367924528301886,
      "grad_norm": 0.21336199343204498,
      "learning_rate": 0.0004679602325449302,
      "loss": 0.4185,
      "num_input_tokens_seen": 14183416,
      "step": 21690
    },
    {
      "epoch": 11.370545073375261,
      "grad_norm": 0.23779802024364471,
      "learning_rate": 0.00046773202020149423,
      "loss": 0.5076,
      "num_input_tokens_seen": 14186104,
      "step": 21695
    },
    {
      "epoch": 11.373165618448636,
      "grad_norm": 0.19168289005756378,
      "learning_rate": 0.0004675038146081516,
      "loss": 0.4377,
      "num_input_tokens_seen": 14190168,
      "step": 21700
    },
    {
      "epoch": 11.375786163522013,
      "grad_norm": 0.1225317120552063,
      "learning_rate": 0.0004672756158126403,
      "loss": 0.4754,
      "num_input_tokens_seen": 14192856,
      "step": 21705
    },
    {
      "epoch": 11.378406708595389,
      "grad_norm": 0.10167214274406433,
      "learning_rate": 0.0004670474238626968,
      "loss": 0.3165,
      "num_input_tokens_seen": 14197112,
      "step": 21710
    },
    {
      "epoch": 11.381027253668764,
      "grad_norm": 0.09606516361236572,
      "learning_rate": 0.00046681923880605614,
      "loss": 0.3518,
      "num_input_tokens_seen": 14200024,
      "step": 21715
    },
    {
      "epoch": 11.383647798742139,
      "grad_norm": 0.1762208193540573,
      "learning_rate": 0.0004665910606904523,
      "loss": 0.5929,
      "num_input_tokens_seen": 14203800,
      "step": 21720
    },
    {
      "epoch": 11.386268343815514,
      "grad_norm": 0.1283894032239914,
      "learning_rate": 0.0004663628895636173,
      "loss": 0.6629,
      "num_input_tokens_seen": 14207128,
      "step": 21725
    },
    {
      "epoch": 11.38888888888889,
      "grad_norm": 0.13205379247665405,
      "learning_rate": 0.0004661347254732822,
      "loss": 0.4475,
      "num_input_tokens_seen": 14210168,
      "step": 21730
    },
    {
      "epoch": 11.391509433962264,
      "grad_norm": 0.1346222460269928,
      "learning_rate": 0.0004659065684671762,
      "loss": 0.4852,
      "num_input_tokens_seen": 14216184,
      "step": 21735
    },
    {
      "epoch": 11.39412997903564,
      "grad_norm": 0.050727542489767075,
      "learning_rate": 0.00046567841859302696,
      "loss": 0.3887,
      "num_input_tokens_seen": 14219576,
      "step": 21740
    },
    {
      "epoch": 11.396750524109015,
      "grad_norm": 0.0678514838218689,
      "learning_rate": 0.0004654502758985611,
      "loss": 0.5377,
      "num_input_tokens_seen": 14223544,
      "step": 21745
    },
    {
      "epoch": 11.39937106918239,
      "grad_norm": 0.11819544434547424,
      "learning_rate": 0.00046522214043150323,
      "loss": 0.4452,
      "num_input_tokens_seen": 14227384,
      "step": 21750
    },
    {
      "epoch": 11.401991614255765,
      "grad_norm": 0.10161440819501877,
      "learning_rate": 0.00046499401223957696,
      "loss": 0.4044,
      "num_input_tokens_seen": 14229816,
      "step": 21755
    },
    {
      "epoch": 11.40461215932914,
      "grad_norm": 0.104802705347538,
      "learning_rate": 0.0004647658913705038,
      "loss": 0.5882,
      "num_input_tokens_seen": 14233176,
      "step": 21760
    },
    {
      "epoch": 11.407232704402515,
      "grad_norm": 0.1368844360113144,
      "learning_rate": 0.00046453777787200444,
      "loss": 0.4954,
      "num_input_tokens_seen": 14236728,
      "step": 21765
    },
    {
      "epoch": 11.40985324947589,
      "grad_norm": 0.06629710644483566,
      "learning_rate": 0.0004643096717917973,
      "loss": 0.3544,
      "num_input_tokens_seen": 14240184,
      "step": 21770
    },
    {
      "epoch": 11.412473794549266,
      "grad_norm": 0.1251664161682129,
      "learning_rate": 0.0004640815731775995,
      "loss": 0.3611,
      "num_input_tokens_seen": 14242808,
      "step": 21775
    },
    {
      "epoch": 11.415094339622641,
      "grad_norm": 0.19333289563655853,
      "learning_rate": 0.0004638534820771267,
      "loss": 0.5202,
      "num_input_tokens_seen": 14245400,
      "step": 21780
    },
    {
      "epoch": 11.417714884696016,
      "grad_norm": 0.12227728217840195,
      "learning_rate": 0.0004636253985380934,
      "loss": 0.4231,
      "num_input_tokens_seen": 14247768,
      "step": 21785
    },
    {
      "epoch": 11.420335429769391,
      "grad_norm": 0.08428403735160828,
      "learning_rate": 0.00046339732260821173,
      "loss": 0.3527,
      "num_input_tokens_seen": 14254520,
      "step": 21790
    },
    {
      "epoch": 11.422955974842766,
      "grad_norm": 0.35935384035110474,
      "learning_rate": 0.0004631692543351924,
      "loss": 0.4305,
      "num_input_tokens_seen": 14257880,
      "step": 21795
    },
    {
      "epoch": 11.425576519916142,
      "grad_norm": 0.07215635478496552,
      "learning_rate": 0.00046294119376674486,
      "loss": 0.356,
      "num_input_tokens_seen": 14261432,
      "step": 21800
    },
    {
      "epoch": 11.428197064989519,
      "grad_norm": 0.048393964767456055,
      "learning_rate": 0.0004627131409505768,
      "loss": 0.3748,
      "num_input_tokens_seen": 14264856,
      "step": 21805
    },
    {
      "epoch": 11.430817610062894,
      "grad_norm": 0.10158850252628326,
      "learning_rate": 0.0004624850959343944,
      "loss": 0.3656,
      "num_input_tokens_seen": 14267672,
      "step": 21810
    },
    {
      "epoch": 11.433438155136269,
      "grad_norm": 0.10683728009462357,
      "learning_rate": 0.00046225705876590175,
      "loss": 0.4824,
      "num_input_tokens_seen": 14271480,
      "step": 21815
    },
    {
      "epoch": 11.436058700209644,
      "grad_norm": 0.10719379782676697,
      "learning_rate": 0.00046202902949280206,
      "loss": 0.4267,
      "num_input_tokens_seen": 14277400,
      "step": 21820
    },
    {
      "epoch": 11.43867924528302,
      "grad_norm": 0.11269639432430267,
      "learning_rate": 0.00046180100816279614,
      "loss": 0.4556,
      "num_input_tokens_seen": 14280664,
      "step": 21825
    },
    {
      "epoch": 11.441299790356394,
      "grad_norm": 0.1956351399421692,
      "learning_rate": 0.0004615729948235833,
      "loss": 0.4121,
      "num_input_tokens_seen": 14284696,
      "step": 21830
    },
    {
      "epoch": 11.44392033542977,
      "grad_norm": 0.07525657117366791,
      "learning_rate": 0.00046134498952286174,
      "loss": 0.5106,
      "num_input_tokens_seen": 14287800,
      "step": 21835
    },
    {
      "epoch": 11.446540880503145,
      "grad_norm": 0.13108353316783905,
      "learning_rate": 0.00046111699230832727,
      "loss": 0.5203,
      "num_input_tokens_seen": 14289848,
      "step": 21840
    },
    {
      "epoch": 11.44916142557652,
      "grad_norm": 0.14484862983226776,
      "learning_rate": 0.00046088900322767434,
      "loss": 0.3764,
      "num_input_tokens_seen": 14292920,
      "step": 21845
    },
    {
      "epoch": 11.451781970649895,
      "grad_norm": 0.1776878833770752,
      "learning_rate": 0.0004606610223285961,
      "loss": 0.403,
      "num_input_tokens_seen": 14296120,
      "step": 21850
    },
    {
      "epoch": 11.45440251572327,
      "grad_norm": 0.11633426696062088,
      "learning_rate": 0.00046043304965878284,
      "loss": 0.4568,
      "num_input_tokens_seen": 14299384,
      "step": 21855
    },
    {
      "epoch": 11.457023060796645,
      "grad_norm": 0.17654259502887726,
      "learning_rate": 0.00046020508526592425,
      "loss": 0.4186,
      "num_input_tokens_seen": 14302968,
      "step": 21860
    },
    {
      "epoch": 11.45964360587002,
      "grad_norm": 0.14521372318267822,
      "learning_rate": 0.0004599771291977079,
      "loss": 0.3721,
      "num_input_tokens_seen": 14305400,
      "step": 21865
    },
    {
      "epoch": 11.462264150943396,
      "grad_norm": 0.104820616543293,
      "learning_rate": 0.0004597491815018194,
      "loss": 0.4502,
      "num_input_tokens_seen": 14309368,
      "step": 21870
    },
    {
      "epoch": 11.464884696016771,
      "grad_norm": 0.06593859195709229,
      "learning_rate": 0.0004595212422259431,
      "loss": 0.3963,
      "num_input_tokens_seen": 14312632,
      "step": 21875
    },
    {
      "epoch": 11.467505241090146,
      "grad_norm": 0.09321466833353043,
      "learning_rate": 0.00045929331141776104,
      "loss": 0.3637,
      "num_input_tokens_seen": 14315480,
      "step": 21880
    },
    {
      "epoch": 11.470125786163521,
      "grad_norm": 0.2687665820121765,
      "learning_rate": 0.0004590653891249537,
      "loss": 0.5426,
      "num_input_tokens_seen": 14318264,
      "step": 21885
    },
    {
      "epoch": 11.472746331236896,
      "grad_norm": 0.10137990117073059,
      "learning_rate": 0.0004588374753952001,
      "loss": 0.4967,
      "num_input_tokens_seen": 14320952,
      "step": 21890
    },
    {
      "epoch": 11.475366876310272,
      "grad_norm": 0.09358180314302444,
      "learning_rate": 0.0004586095702761769,
      "loss": 0.415,
      "num_input_tokens_seen": 14324280,
      "step": 21895
    },
    {
      "epoch": 11.477987421383649,
      "grad_norm": 0.14259839057922363,
      "learning_rate": 0.0004583816738155595,
      "loss": 0.3667,
      "num_input_tokens_seen": 14326520,
      "step": 21900
    },
    {
      "epoch": 11.480607966457024,
      "grad_norm": 0.1350683867931366,
      "learning_rate": 0.0004581537860610213,
      "loss": 0.4647,
      "num_input_tokens_seen": 14329272,
      "step": 21905
    },
    {
      "epoch": 11.483228511530399,
      "grad_norm": 0.1043873280286789,
      "learning_rate": 0.0004579259070602333,
      "loss": 0.4564,
      "num_input_tokens_seen": 14332312,
      "step": 21910
    },
    {
      "epoch": 11.485849056603774,
      "grad_norm": 0.20621202886104584,
      "learning_rate": 0.0004576980368608658,
      "loss": 0.4622,
      "num_input_tokens_seen": 14334744,
      "step": 21915
    },
    {
      "epoch": 11.48846960167715,
      "grad_norm": 0.10883486270904541,
      "learning_rate": 0.0004574701755105862,
      "loss": 0.4515,
      "num_input_tokens_seen": 14338872,
      "step": 21920
    },
    {
      "epoch": 11.491090146750524,
      "grad_norm": 0.10842885822057724,
      "learning_rate": 0.00045724232305706066,
      "loss": 0.4419,
      "num_input_tokens_seen": 14342232,
      "step": 21925
    },
    {
      "epoch": 11.4937106918239,
      "grad_norm": 0.1015561893582344,
      "learning_rate": 0.00045701447954795343,
      "loss": 0.4662,
      "num_input_tokens_seen": 14345432,
      "step": 21930
    },
    {
      "epoch": 11.496331236897275,
      "grad_norm": 0.11857034265995026,
      "learning_rate": 0.0004567866450309268,
      "loss": 0.5893,
      "num_input_tokens_seen": 14348792,
      "step": 21935
    },
    {
      "epoch": 11.49895178197065,
      "grad_norm": 0.11046117544174194,
      "learning_rate": 0.00045655881955364086,
      "loss": 0.4059,
      "num_input_tokens_seen": 14351736,
      "step": 21940
    },
    {
      "epoch": 11.501572327044025,
      "grad_norm": 0.192232146859169,
      "learning_rate": 0.0004563310031637543,
      "loss": 0.5092,
      "num_input_tokens_seen": 14354680,
      "step": 21945
    },
    {
      "epoch": 11.5041928721174,
      "grad_norm": 0.143326997756958,
      "learning_rate": 0.00045610319590892365,
      "loss": 0.5043,
      "num_input_tokens_seen": 14357432,
      "step": 21950
    },
    {
      "epoch": 11.506813417190775,
      "grad_norm": 0.08868194371461868,
      "learning_rate": 0.00045587539783680366,
      "loss": 0.4469,
      "num_input_tokens_seen": 14360728,
      "step": 21955
    },
    {
      "epoch": 11.50943396226415,
      "grad_norm": 0.10694869607686996,
      "learning_rate": 0.00045564760899504715,
      "loss": 0.5492,
      "num_input_tokens_seen": 14364376,
      "step": 21960
    },
    {
      "epoch": 11.512054507337526,
      "grad_norm": 0.14662574231624603,
      "learning_rate": 0.00045541982943130466,
      "loss": 0.3506,
      "num_input_tokens_seen": 14367960,
      "step": 21965
    },
    {
      "epoch": 11.514675052410901,
      "grad_norm": 0.10809517651796341,
      "learning_rate": 0.00045519205919322534,
      "loss": 0.4938,
      "num_input_tokens_seen": 14372696,
      "step": 21970
    },
    {
      "epoch": 11.517295597484276,
      "grad_norm": 0.10618296265602112,
      "learning_rate": 0.00045496429832845594,
      "loss": 0.3892,
      "num_input_tokens_seen": 14376280,
      "step": 21975
    },
    {
      "epoch": 11.519916142557651,
      "grad_norm": 0.10282468050718307,
      "learning_rate": 0.0004547365468846416,
      "loss": 0.3645,
      "num_input_tokens_seen": 14379960,
      "step": 21980
    },
    {
      "epoch": 11.522536687631026,
      "grad_norm": 0.10348468273878098,
      "learning_rate": 0.0004545088049094252,
      "loss": 0.4537,
      "num_input_tokens_seen": 14383000,
      "step": 21985
    },
    {
      "epoch": 11.525157232704402,
      "grad_norm": 0.10758207738399506,
      "learning_rate": 0.00045428107245044805,
      "loss": 0.4839,
      "num_input_tokens_seen": 14386488,
      "step": 21990
    },
    {
      "epoch": 11.527777777777779,
      "grad_norm": 0.12521488964557648,
      "learning_rate": 0.0004540533495553488,
      "loss": 0.3296,
      "num_input_tokens_seen": 14390264,
      "step": 21995
    },
    {
      "epoch": 11.530398322851154,
      "grad_norm": 0.09846176952123642,
      "learning_rate": 0.00045382563627176454,
      "loss": 0.4052,
      "num_input_tokens_seen": 14392920,
      "step": 22000
    },
    {
      "epoch": 11.533018867924529,
      "grad_norm": 0.10694475471973419,
      "learning_rate": 0.0004535979326473304,
      "loss": 0.4219,
      "num_input_tokens_seen": 14396568,
      "step": 22005
    },
    {
      "epoch": 11.535639412997904,
      "grad_norm": 0.11150530725717545,
      "learning_rate": 0.00045337023872967945,
      "loss": 0.4855,
      "num_input_tokens_seen": 14400120,
      "step": 22010
    },
    {
      "epoch": 11.53825995807128,
      "grad_norm": 0.07590009272098541,
      "learning_rate": 0.0004531425545664425,
      "loss": 0.4596,
      "num_input_tokens_seen": 14403704,
      "step": 22015
    },
    {
      "epoch": 11.540880503144654,
      "grad_norm": 0.11056817322969437,
      "learning_rate": 0.0004529148802052488,
      "loss": 0.3544,
      "num_input_tokens_seen": 14405976,
      "step": 22020
    },
    {
      "epoch": 11.54350104821803,
      "grad_norm": 0.1316327303647995,
      "learning_rate": 0.00045268721569372483,
      "loss": 0.3624,
      "num_input_tokens_seen": 14408600,
      "step": 22025
    },
    {
      "epoch": 11.546121593291405,
      "grad_norm": 0.08599879592657089,
      "learning_rate": 0.00045245956107949547,
      "loss": 0.3309,
      "num_input_tokens_seen": 14411352,
      "step": 22030
    },
    {
      "epoch": 11.54874213836478,
      "grad_norm": 0.18411754071712494,
      "learning_rate": 0.0004522319164101837,
      "loss": 0.6127,
      "num_input_tokens_seen": 14414552,
      "step": 22035
    },
    {
      "epoch": 11.551362683438155,
      "grad_norm": 0.06674399971961975,
      "learning_rate": 0.00045200428173340987,
      "loss": 0.3635,
      "num_input_tokens_seen": 14418680,
      "step": 22040
    },
    {
      "epoch": 11.55398322851153,
      "grad_norm": 0.10548515617847443,
      "learning_rate": 0.00045177665709679286,
      "loss": 0.5134,
      "num_input_tokens_seen": 14421432,
      "step": 22045
    },
    {
      "epoch": 11.556603773584905,
      "grad_norm": 0.13215358555316925,
      "learning_rate": 0.0004515490425479492,
      "loss": 0.5394,
      "num_input_tokens_seen": 14424280,
      "step": 22050
    },
    {
      "epoch": 11.55922431865828,
      "grad_norm": 0.11308247596025467,
      "learning_rate": 0.0004513214381344928,
      "loss": 0.5258,
      "num_input_tokens_seen": 14427064,
      "step": 22055
    },
    {
      "epoch": 11.561844863731656,
      "grad_norm": 0.11159408092498779,
      "learning_rate": 0.00045109384390403635,
      "loss": 0.4087,
      "num_input_tokens_seen": 14430584,
      "step": 22060
    },
    {
      "epoch": 11.564465408805031,
      "grad_norm": 0.1498890370130539,
      "learning_rate": 0.0004508662599041896,
      "loss": 0.4752,
      "num_input_tokens_seen": 14433496,
      "step": 22065
    },
    {
      "epoch": 11.567085953878406,
      "grad_norm": 0.2398541420698166,
      "learning_rate": 0.0004506386861825609,
      "loss": 0.5125,
      "num_input_tokens_seen": 14436632,
      "step": 22070
    },
    {
      "epoch": 11.569706498951781,
      "grad_norm": 0.1850941777229309,
      "learning_rate": 0.00045041112278675603,
      "loss": 0.3868,
      "num_input_tokens_seen": 14439448,
      "step": 22075
    },
    {
      "epoch": 11.572327044025156,
      "grad_norm": 0.1373572200536728,
      "learning_rate": 0.00045018356976437836,
      "loss": 0.4608,
      "num_input_tokens_seen": 14442328,
      "step": 22080
    },
    {
      "epoch": 11.574947589098532,
      "grad_norm": 0.13916252553462982,
      "learning_rate": 0.0004499560271630295,
      "loss": 0.4314,
      "num_input_tokens_seen": 14444984,
      "step": 22085
    },
    {
      "epoch": 11.577568134171909,
      "grad_norm": 0.08648441731929779,
      "learning_rate": 0.00044972849503030894,
      "loss": 0.5917,
      "num_input_tokens_seen": 14448280,
      "step": 22090
    },
    {
      "epoch": 11.580188679245284,
      "grad_norm": 0.12407433241605759,
      "learning_rate": 0.00044950097341381356,
      "loss": 0.4324,
      "num_input_tokens_seen": 14451864,
      "step": 22095
    },
    {
      "epoch": 11.582809224318659,
      "grad_norm": 0.17053404450416565,
      "learning_rate": 0.0004492734623611385,
      "loss": 0.4788,
      "num_input_tokens_seen": 14454392,
      "step": 22100
    },
    {
      "epoch": 11.585429769392034,
      "grad_norm": 0.13568110764026642,
      "learning_rate": 0.0004490459619198766,
      "loss": 0.4358,
      "num_input_tokens_seen": 14459928,
      "step": 22105
    },
    {
      "epoch": 11.58805031446541,
      "grad_norm": 0.09358937293291092,
      "learning_rate": 0.00044881847213761787,
      "loss": 0.4749,
      "num_input_tokens_seen": 14462616,
      "step": 22110
    },
    {
      "epoch": 11.590670859538784,
      "grad_norm": 0.06256932765245438,
      "learning_rate": 0.000448590993061951,
      "loss": 0.4391,
      "num_input_tokens_seen": 14466072,
      "step": 22115
    },
    {
      "epoch": 11.59329140461216,
      "grad_norm": 0.16177870333194733,
      "learning_rate": 0.00044836352474046177,
      "loss": 0.3941,
      "num_input_tokens_seen": 14468728,
      "step": 22120
    },
    {
      "epoch": 11.595911949685535,
      "grad_norm": 0.15482056140899658,
      "learning_rate": 0.00044813606722073415,
      "loss": 0.4816,
      "num_input_tokens_seen": 14471672,
      "step": 22125
    },
    {
      "epoch": 11.59853249475891,
      "grad_norm": 0.14825867116451263,
      "learning_rate": 0.00044790862055034945,
      "loss": 0.3518,
      "num_input_tokens_seen": 14474840,
      "step": 22130
    },
    {
      "epoch": 11.601153039832285,
      "grad_norm": 0.09898526221513748,
      "learning_rate": 0.00044768118477688727,
      "loss": 0.5278,
      "num_input_tokens_seen": 14478648,
      "step": 22135
    },
    {
      "epoch": 11.60377358490566,
      "grad_norm": 0.15009401738643646,
      "learning_rate": 0.00044745375994792425,
      "loss": 0.3389,
      "num_input_tokens_seen": 14482968,
      "step": 22140
    },
    {
      "epoch": 11.606394129979035,
      "grad_norm": 0.12897315621376038,
      "learning_rate": 0.00044722634611103507,
      "loss": 0.3419,
      "num_input_tokens_seen": 14486712,
      "step": 22145
    },
    {
      "epoch": 11.60901467505241,
      "grad_norm": 0.11094973236322403,
      "learning_rate": 0.0004469989433137923,
      "loss": 0.4846,
      "num_input_tokens_seen": 14489624,
      "step": 22150
    },
    {
      "epoch": 11.611635220125786,
      "grad_norm": 0.14975744485855103,
      "learning_rate": 0.00044677155160376586,
      "loss": 0.4479,
      "num_input_tokens_seen": 14493016,
      "step": 22155
    },
    {
      "epoch": 11.614255765199161,
      "grad_norm": 0.1334342509508133,
      "learning_rate": 0.00044654417102852375,
      "loss": 0.3414,
      "num_input_tokens_seen": 14495928,
      "step": 22160
    },
    {
      "epoch": 11.616876310272536,
      "grad_norm": 0.1336098611354828,
      "learning_rate": 0.0004463168016356309,
      "loss": 0.4466,
      "num_input_tokens_seen": 14499416,
      "step": 22165
    },
    {
      "epoch": 11.619496855345911,
      "grad_norm": 0.13724005222320557,
      "learning_rate": 0.00044608944347265095,
      "loss": 0.6639,
      "num_input_tokens_seen": 14502232,
      "step": 22170
    },
    {
      "epoch": 11.622117400419286,
      "grad_norm": 0.10939419269561768,
      "learning_rate": 0.0004458620965871442,
      "loss": 0.5583,
      "num_input_tokens_seen": 14505144,
      "step": 22175
    },
    {
      "epoch": 11.624737945492662,
      "grad_norm": 0.10469230264425278,
      "learning_rate": 0.00044563476102666935,
      "loss": 0.4875,
      "num_input_tokens_seen": 14509208,
      "step": 22180
    },
    {
      "epoch": 11.627358490566039,
      "grad_norm": 0.10162679105997086,
      "learning_rate": 0.0004454074368387821,
      "loss": 0.4051,
      "num_input_tokens_seen": 14512312,
      "step": 22185
    },
    {
      "epoch": 11.629979035639414,
      "grad_norm": 0.06857351958751678,
      "learning_rate": 0.0004451801240710365,
      "loss": 0.4766,
      "num_input_tokens_seen": 14515960,
      "step": 22190
    },
    {
      "epoch": 11.632599580712789,
      "grad_norm": 0.10120004415512085,
      "learning_rate": 0.0004449528227709834,
      "loss": 0.3975,
      "num_input_tokens_seen": 14518968,
      "step": 22195
    },
    {
      "epoch": 11.635220125786164,
      "grad_norm": 0.08602098375558853,
      "learning_rate": 0.0004447255329861716,
      "loss": 0.5316,
      "num_input_tokens_seen": 14522936,
      "step": 22200
    },
    {
      "epoch": 11.63784067085954,
      "grad_norm": 0.12870678305625916,
      "learning_rate": 0.0004444982547641479,
      "loss": 0.584,
      "num_input_tokens_seen": 14525592,
      "step": 22205
    },
    {
      "epoch": 11.640461215932914,
      "grad_norm": 0.19067247211933136,
      "learning_rate": 0.00044427098815245594,
      "loss": 0.4455,
      "num_input_tokens_seen": 14529112,
      "step": 22210
    },
    {
      "epoch": 11.64308176100629,
      "grad_norm": 0.10832126438617706,
      "learning_rate": 0.00044404373319863763,
      "loss": 0.3824,
      "num_input_tokens_seen": 14532536,
      "step": 22215
    },
    {
      "epoch": 11.645702306079665,
      "grad_norm": 0.18459640443325043,
      "learning_rate": 0.000443816489950232,
      "loss": 0.4042,
      "num_input_tokens_seen": 14535672,
      "step": 22220
    },
    {
      "epoch": 11.64832285115304,
      "grad_norm": 0.0904698446393013,
      "learning_rate": 0.00044358925845477547,
      "loss": 0.4569,
      "num_input_tokens_seen": 14538712,
      "step": 22225
    },
    {
      "epoch": 11.650943396226415,
      "grad_norm": 0.1411677896976471,
      "learning_rate": 0.0004433620387598027,
      "loss": 0.4153,
      "num_input_tokens_seen": 14541624,
      "step": 22230
    },
    {
      "epoch": 11.65356394129979,
      "grad_norm": 0.08127928525209427,
      "learning_rate": 0.00044313483091284507,
      "loss": 0.3935,
      "num_input_tokens_seen": 14544600,
      "step": 22235
    },
    {
      "epoch": 11.656184486373165,
      "grad_norm": 0.11502335965633392,
      "learning_rate": 0.0004429076349614321,
      "loss": 0.3716,
      "num_input_tokens_seen": 14547800,
      "step": 22240
    },
    {
      "epoch": 11.65880503144654,
      "grad_norm": 0.13528047502040863,
      "learning_rate": 0.0004426804509530907,
      "loss": 0.5768,
      "num_input_tokens_seen": 14550072,
      "step": 22245
    },
    {
      "epoch": 11.661425576519916,
      "grad_norm": 0.11213184148073196,
      "learning_rate": 0.000442453278935345,
      "loss": 0.4457,
      "num_input_tokens_seen": 14554584,
      "step": 22250
    },
    {
      "epoch": 11.664046121593291,
      "grad_norm": 0.0798177495598793,
      "learning_rate": 0.0004422261189557167,
      "loss": 0.434,
      "num_input_tokens_seen": 14557912,
      "step": 22255
    },
    {
      "epoch": 11.666666666666666,
      "grad_norm": 0.09720467031002045,
      "learning_rate": 0.00044199897106172526,
      "loss": 0.4074,
      "num_input_tokens_seen": 14561304,
      "step": 22260
    },
    {
      "epoch": 11.669287211740041,
      "grad_norm": 0.12474821507930756,
      "learning_rate": 0.0004417718353008873,
      "loss": 0.5225,
      "num_input_tokens_seen": 14564856,
      "step": 22265
    },
    {
      "epoch": 11.671907756813416,
      "grad_norm": 0.11706651002168655,
      "learning_rate": 0.0004415447117207172,
      "loss": 0.4408,
      "num_input_tokens_seen": 14567960,
      "step": 22270
    },
    {
      "epoch": 11.674528301886792,
      "grad_norm": 0.10635645687580109,
      "learning_rate": 0.00044131760036872657,
      "loss": 0.4168,
      "num_input_tokens_seen": 14570840,
      "step": 22275
    },
    {
      "epoch": 11.677148846960169,
      "grad_norm": 0.1076698750257492,
      "learning_rate": 0.00044109050129242434,
      "loss": 0.4411,
      "num_input_tokens_seen": 14575128,
      "step": 22280
    },
    {
      "epoch": 11.679769392033544,
      "grad_norm": 0.1222459152340889,
      "learning_rate": 0.00044086341453931715,
      "loss": 0.5465,
      "num_input_tokens_seen": 14578680,
      "step": 22285
    },
    {
      "epoch": 11.682389937106919,
      "grad_norm": 0.18321764469146729,
      "learning_rate": 0.00044063634015690893,
      "loss": 0.5081,
      "num_input_tokens_seen": 14581400,
      "step": 22290
    },
    {
      "epoch": 11.685010482180294,
      "grad_norm": 0.13342538475990295,
      "learning_rate": 0.0004404092781927012,
      "loss": 0.4154,
      "num_input_tokens_seen": 14584600,
      "step": 22295
    },
    {
      "epoch": 11.68763102725367,
      "grad_norm": 0.118423230946064,
      "learning_rate": 0.00044018222869419255,
      "loss": 0.421,
      "num_input_tokens_seen": 14587704,
      "step": 22300
    },
    {
      "epoch": 11.690251572327044,
      "grad_norm": 0.11175204068422318,
      "learning_rate": 0.00043995519170887936,
      "loss": 0.4273,
      "num_input_tokens_seen": 14590264,
      "step": 22305
    },
    {
      "epoch": 11.69287211740042,
      "grad_norm": 0.12603726983070374,
      "learning_rate": 0.00043972816728425504,
      "loss": 0.4454,
      "num_input_tokens_seen": 14593528,
      "step": 22310
    },
    {
      "epoch": 11.695492662473795,
      "grad_norm": 0.10038331896066666,
      "learning_rate": 0.0004395011554678103,
      "loss": 0.496,
      "num_input_tokens_seen": 14596568,
      "step": 22315
    },
    {
      "epoch": 11.69811320754717,
      "grad_norm": 0.2869355082511902,
      "learning_rate": 0.00043927415630703364,
      "loss": 0.5753,
      "num_input_tokens_seen": 14599288,
      "step": 22320
    },
    {
      "epoch": 11.700733752620545,
      "grad_norm": 0.09197410941123962,
      "learning_rate": 0.0004390471698494108,
      "loss": 0.5252,
      "num_input_tokens_seen": 14602648,
      "step": 22325
    },
    {
      "epoch": 11.70335429769392,
      "grad_norm": 0.11694598197937012,
      "learning_rate": 0.0004388201961424248,
      "loss": 0.3961,
      "num_input_tokens_seen": 14605848,
      "step": 22330
    },
    {
      "epoch": 11.705974842767295,
      "grad_norm": 0.07817783206701279,
      "learning_rate": 0.0004385932352335555,
      "loss": 0.3286,
      "num_input_tokens_seen": 14609112,
      "step": 22335
    },
    {
      "epoch": 11.70859538784067,
      "grad_norm": 0.12121696770191193,
      "learning_rate": 0.000438366287170281,
      "loss": 0.7246,
      "num_input_tokens_seen": 14613208,
      "step": 22340
    },
    {
      "epoch": 11.711215932914046,
      "grad_norm": 0.06827553361654282,
      "learning_rate": 0.0004381393520000759,
      "loss": 0.4633,
      "num_input_tokens_seen": 14616152,
      "step": 22345
    },
    {
      "epoch": 11.713836477987421,
      "grad_norm": 0.06798160076141357,
      "learning_rate": 0.0004379124297704127,
      "loss": 0.4286,
      "num_input_tokens_seen": 14619128,
      "step": 22350
    },
    {
      "epoch": 11.716457023060796,
      "grad_norm": 0.11132065206766129,
      "learning_rate": 0.0004376855205287609,
      "loss": 0.4896,
      "num_input_tokens_seen": 14623192,
      "step": 22355
    },
    {
      "epoch": 11.719077568134171,
      "grad_norm": 0.10903546959161758,
      "learning_rate": 0.0004374586243225874,
      "loss": 0.4577,
      "num_input_tokens_seen": 14626488,
      "step": 22360
    },
    {
      "epoch": 11.721698113207546,
      "grad_norm": 0.09115463495254517,
      "learning_rate": 0.00043723174119935607,
      "loss": 0.5675,
      "num_input_tokens_seen": 14629496,
      "step": 22365
    },
    {
      "epoch": 11.724318658280922,
      "grad_norm": 0.10177578777074814,
      "learning_rate": 0.00043700487120652826,
      "loss": 0.4355,
      "num_input_tokens_seen": 14632504,
      "step": 22370
    },
    {
      "epoch": 11.726939203354299,
      "grad_norm": 0.11975952982902527,
      "learning_rate": 0.00043677801439156284,
      "loss": 0.4463,
      "num_input_tokens_seen": 14635576,
      "step": 22375
    },
    {
      "epoch": 11.729559748427674,
      "grad_norm": 0.08428661525249481,
      "learning_rate": 0.00043655117080191545,
      "loss": 0.3949,
      "num_input_tokens_seen": 14638488,
      "step": 22380
    },
    {
      "epoch": 11.732180293501049,
      "grad_norm": 0.09802888333797455,
      "learning_rate": 0.00043632434048503934,
      "loss": 0.544,
      "num_input_tokens_seen": 14641720,
      "step": 22385
    },
    {
      "epoch": 11.734800838574424,
      "grad_norm": 0.08875995129346848,
      "learning_rate": 0.00043609752348838484,
      "loss": 0.465,
      "num_input_tokens_seen": 14644792,
      "step": 22390
    },
    {
      "epoch": 11.7374213836478,
      "grad_norm": 0.098614901304245,
      "learning_rate": 0.0004358707198593992,
      "loss": 0.4434,
      "num_input_tokens_seen": 14647384,
      "step": 22395
    },
    {
      "epoch": 11.740041928721174,
      "grad_norm": 0.14998112618923187,
      "learning_rate": 0.0004356439296455273,
      "loss": 0.4047,
      "num_input_tokens_seen": 14650584,
      "step": 22400
    },
    {
      "epoch": 11.74266247379455,
      "grad_norm": 0.12100192159414291,
      "learning_rate": 0.0004354171528942113,
      "loss": 0.4018,
      "num_input_tokens_seen": 14653464,
      "step": 22405
    },
    {
      "epoch": 11.745283018867925,
      "grad_norm": 0.10996835678815842,
      "learning_rate": 0.00043519038965288994,
      "loss": 0.394,
      "num_input_tokens_seen": 14656376,
      "step": 22410
    },
    {
      "epoch": 11.7479035639413,
      "grad_norm": 0.14741185307502747,
      "learning_rate": 0.0004349636399689998,
      "loss": 0.3012,
      "num_input_tokens_seen": 14659416,
      "step": 22415
    },
    {
      "epoch": 11.750524109014675,
      "grad_norm": 0.17678707838058472,
      "learning_rate": 0.00043473690388997434,
      "loss": 0.3979,
      "num_input_tokens_seen": 14662232,
      "step": 22420
    },
    {
      "epoch": 11.75314465408805,
      "grad_norm": 0.1074092909693718,
      "learning_rate": 0.0004345101814632438,
      "loss": 0.4497,
      "num_input_tokens_seen": 14664920,
      "step": 22425
    },
    {
      "epoch": 11.755765199161425,
      "grad_norm": 0.15745027363300323,
      "learning_rate": 0.0004342834727362362,
      "loss": 0.5199,
      "num_input_tokens_seen": 14668056,
      "step": 22430
    },
    {
      "epoch": 11.7583857442348,
      "grad_norm": 0.11817587912082672,
      "learning_rate": 0.00043405677775637633,
      "loss": 0.4162,
      "num_input_tokens_seen": 14671032,
      "step": 22435
    },
    {
      "epoch": 11.761006289308176,
      "grad_norm": 0.06328630447387695,
      "learning_rate": 0.0004338300965710863,
      "loss": 0.3777,
      "num_input_tokens_seen": 14674360,
      "step": 22440
    },
    {
      "epoch": 11.76362683438155,
      "grad_norm": 0.09117020666599274,
      "learning_rate": 0.0004336034292277853,
      "loss": 0.5408,
      "num_input_tokens_seen": 14677720,
      "step": 22445
    },
    {
      "epoch": 11.766247379454926,
      "grad_norm": 0.1322966068983078,
      "learning_rate": 0.00043337677577388916,
      "loss": 0.4011,
      "num_input_tokens_seen": 14680216,
      "step": 22450
    },
    {
      "epoch": 11.768867924528301,
      "grad_norm": 0.1051195040345192,
      "learning_rate": 0.0004331501362568116,
      "loss": 0.4784,
      "num_input_tokens_seen": 14683608,
      "step": 22455
    },
    {
      "epoch": 11.771488469601676,
      "grad_norm": 0.13119754195213318,
      "learning_rate": 0.00043292351072396273,
      "loss": 0.5038,
      "num_input_tokens_seen": 14686872,
      "step": 22460
    },
    {
      "epoch": 11.774109014675052,
      "grad_norm": 0.1560480296611786,
      "learning_rate": 0.0004326968992227503,
      "loss": 0.3587,
      "num_input_tokens_seen": 14688824,
      "step": 22465
    },
    {
      "epoch": 11.776729559748428,
      "grad_norm": 0.16223882138729095,
      "learning_rate": 0.0004324703018005786,
      "loss": 0.3437,
      "num_input_tokens_seen": 14691192,
      "step": 22470
    },
    {
      "epoch": 11.779350104821804,
      "grad_norm": 0.14636991918087006,
      "learning_rate": 0.00043224371850484955,
      "loss": 0.4423,
      "num_input_tokens_seen": 14694072,
      "step": 22475
    },
    {
      "epoch": 11.781970649895179,
      "grad_norm": 0.10893764346837997,
      "learning_rate": 0.0004320171493829614,
      "loss": 0.5814,
      "num_input_tokens_seen": 14697976,
      "step": 22480
    },
    {
      "epoch": 11.784591194968554,
      "grad_norm": 0.1528017818927765,
      "learning_rate": 0.00043179059448231004,
      "loss": 0.4442,
      "num_input_tokens_seen": 14701368,
      "step": 22485
    },
    {
      "epoch": 11.78721174004193,
      "grad_norm": 0.14296264946460724,
      "learning_rate": 0.0004315640538502881,
      "loss": 0.4765,
      "num_input_tokens_seen": 14704888,
      "step": 22490
    },
    {
      "epoch": 11.789832285115304,
      "grad_norm": 0.13570356369018555,
      "learning_rate": 0.00043133752753428547,
      "loss": 0.4079,
      "num_input_tokens_seen": 14707928,
      "step": 22495
    },
    {
      "epoch": 11.79245283018868,
      "grad_norm": 0.09047585725784302,
      "learning_rate": 0.0004311110155816886,
      "loss": 0.5779,
      "num_input_tokens_seen": 14711800,
      "step": 22500
    },
    {
      "epoch": 11.795073375262055,
      "grad_norm": 0.07735384255647659,
      "learning_rate": 0.00043088451803988153,
      "loss": 0.5343,
      "num_input_tokens_seen": 14719000,
      "step": 22505
    },
    {
      "epoch": 11.79769392033543,
      "grad_norm": 0.08174768835306168,
      "learning_rate": 0.00043065803495624465,
      "loss": 0.3396,
      "num_input_tokens_seen": 14723192,
      "step": 22510
    },
    {
      "epoch": 11.800314465408805,
      "grad_norm": 0.20087924599647522,
      "learning_rate": 0.00043043156637815575,
      "loss": 0.5083,
      "num_input_tokens_seen": 14725496,
      "step": 22515
    },
    {
      "epoch": 11.80293501048218,
      "grad_norm": 0.07843402028083801,
      "learning_rate": 0.00043020511235298956,
      "loss": 0.4416,
      "num_input_tokens_seen": 14729272,
      "step": 22520
    },
    {
      "epoch": 11.805555555555555,
      "grad_norm": 0.09054776281118393,
      "learning_rate": 0.00042997867292811744,
      "loss": 0.5209,
      "num_input_tokens_seen": 14732280,
      "step": 22525
    },
    {
      "epoch": 11.80817610062893,
      "grad_norm": 0.06642045080661774,
      "learning_rate": 0.00042975224815090834,
      "loss": 0.362,
      "num_input_tokens_seen": 14737784,
      "step": 22530
    },
    {
      "epoch": 11.810796645702306,
      "grad_norm": 0.07141735404729843,
      "learning_rate": 0.0004295258380687274,
      "loss": 0.4964,
      "num_input_tokens_seen": 14741048,
      "step": 22535
    },
    {
      "epoch": 11.81341719077568,
      "grad_norm": 0.10198576003313065,
      "learning_rate": 0.000429299442728937,
      "loss": 0.3961,
      "num_input_tokens_seen": 14744440,
      "step": 22540
    },
    {
      "epoch": 11.816037735849056,
      "grad_norm": 0.11771649122238159,
      "learning_rate": 0.0004290730621788967,
      "loss": 0.6221,
      "num_input_tokens_seen": 14747032,
      "step": 22545
    },
    {
      "epoch": 11.818658280922431,
      "grad_norm": 0.18476349115371704,
      "learning_rate": 0.0004288466964659625,
      "loss": 0.5325,
      "num_input_tokens_seen": 14749528,
      "step": 22550
    },
    {
      "epoch": 11.821278825995806,
      "grad_norm": 0.12874579429626465,
      "learning_rate": 0.0004286203456374877,
      "loss": 0.5122,
      "num_input_tokens_seen": 14752696,
      "step": 22555
    },
    {
      "epoch": 11.823899371069182,
      "grad_norm": 0.12246736139059067,
      "learning_rate": 0.0004283940097408224,
      "loss": 0.5074,
      "num_input_tokens_seen": 14755800,
      "step": 22560
    },
    {
      "epoch": 11.826519916142558,
      "grad_norm": 0.1212928295135498,
      "learning_rate": 0.00042816768882331324,
      "loss": 0.3736,
      "num_input_tokens_seen": 14758264,
      "step": 22565
    },
    {
      "epoch": 11.829140461215934,
      "grad_norm": 0.10321445018053055,
      "learning_rate": 0.000427941382932304,
      "loss": 0.4024,
      "num_input_tokens_seen": 14760984,
      "step": 22570
    },
    {
      "epoch": 11.831761006289309,
      "grad_norm": 0.2866227924823761,
      "learning_rate": 0.0004277150921151354,
      "loss": 0.4217,
      "num_input_tokens_seen": 14764472,
      "step": 22575
    },
    {
      "epoch": 11.834381551362684,
      "grad_norm": 0.12328788638114929,
      "learning_rate": 0.0004274888164191448,
      "loss": 0.4017,
      "num_input_tokens_seen": 14767960,
      "step": 22580
    },
    {
      "epoch": 11.83700209643606,
      "grad_norm": 0.0808754712343216,
      "learning_rate": 0.00042726255589166666,
      "loss": 0.4456,
      "num_input_tokens_seen": 14770360,
      "step": 22585
    },
    {
      "epoch": 11.839622641509434,
      "grad_norm": 0.10036428272724152,
      "learning_rate": 0.0004270363105800321,
      "loss": 0.5291,
      "num_input_tokens_seen": 14772920,
      "step": 22590
    },
    {
      "epoch": 11.84224318658281,
      "grad_norm": 0.09441755712032318,
      "learning_rate": 0.0004268100805315688,
      "loss": 0.4326,
      "num_input_tokens_seen": 14776024,
      "step": 22595
    },
    {
      "epoch": 11.844863731656185,
      "grad_norm": 0.12397652119398117,
      "learning_rate": 0.00042658386579360165,
      "loss": 0.4395,
      "num_input_tokens_seen": 14778776,
      "step": 22600
    },
    {
      "epoch": 11.84748427672956,
      "grad_norm": 0.15371572971343994,
      "learning_rate": 0.00042635766641345213,
      "loss": 0.4118,
      "num_input_tokens_seen": 14781176,
      "step": 22605
    },
    {
      "epoch": 11.850104821802935,
      "grad_norm": 0.18732883036136627,
      "learning_rate": 0.0004261314824384388,
      "loss": 0.5398,
      "num_input_tokens_seen": 14784280,
      "step": 22610
    },
    {
      "epoch": 11.85272536687631,
      "grad_norm": 0.07986700534820557,
      "learning_rate": 0.00042590531391587666,
      "loss": 0.3945,
      "num_input_tokens_seen": 14788184,
      "step": 22615
    },
    {
      "epoch": 11.855345911949685,
      "grad_norm": 0.08633214980363846,
      "learning_rate": 0.00042567916089307733,
      "loss": 0.5082,
      "num_input_tokens_seen": 14792472,
      "step": 22620
    },
    {
      "epoch": 11.85796645702306,
      "grad_norm": 0.09670167416334152,
      "learning_rate": 0.00042545302341734977,
      "loss": 0.4914,
      "num_input_tokens_seen": 14795416,
      "step": 22625
    },
    {
      "epoch": 11.860587002096436,
      "grad_norm": 0.08811270445585251,
      "learning_rate": 0.0004252269015359991,
      "loss": 0.4572,
      "num_input_tokens_seen": 14799864,
      "step": 22630
    },
    {
      "epoch": 11.86320754716981,
      "grad_norm": 0.13673515617847443,
      "learning_rate": 0.00042500079529632763,
      "loss": 0.4315,
      "num_input_tokens_seen": 14803384,
      "step": 22635
    },
    {
      "epoch": 11.865828092243186,
      "grad_norm": 0.13651736080646515,
      "learning_rate": 0.0004247747047456342,
      "loss": 0.4365,
      "num_input_tokens_seen": 14807224,
      "step": 22640
    },
    {
      "epoch": 11.868448637316561,
      "grad_norm": 0.1180000752210617,
      "learning_rate": 0.0004245486299312144,
      "loss": 0.4616,
      "num_input_tokens_seen": 14811096,
      "step": 22645
    },
    {
      "epoch": 11.871069182389936,
      "grad_norm": 0.10659424215555191,
      "learning_rate": 0.0004243225709003602,
      "loss": 0.5021,
      "num_input_tokens_seen": 14814776,
      "step": 22650
    },
    {
      "epoch": 11.873689727463312,
      "grad_norm": 0.11202266812324524,
      "learning_rate": 0.000424096527700361,
      "loss": 0.5282,
      "num_input_tokens_seen": 14818424,
      "step": 22655
    },
    {
      "epoch": 11.876310272536688,
      "grad_norm": 0.0962659940123558,
      "learning_rate": 0.0004238705003785021,
      "loss": 0.5181,
      "num_input_tokens_seen": 14822456,
      "step": 22660
    },
    {
      "epoch": 11.878930817610064,
      "grad_norm": 0.15603992342948914,
      "learning_rate": 0.0004236444889820661,
      "loss": 0.4348,
      "num_input_tokens_seen": 14824760,
      "step": 22665
    },
    {
      "epoch": 11.881551362683439,
      "grad_norm": 0.11085434257984161,
      "learning_rate": 0.0004234184935583318,
      "loss": 0.3543,
      "num_input_tokens_seen": 14826968,
      "step": 22670
    },
    {
      "epoch": 11.884171907756814,
      "grad_norm": 0.12534575164318085,
      "learning_rate": 0.00042319251415457517,
      "loss": 0.4939,
      "num_input_tokens_seen": 14830328,
      "step": 22675
    },
    {
      "epoch": 11.88679245283019,
      "grad_norm": 0.11236639320850372,
      "learning_rate": 0.0004229665508180681,
      "loss": 0.4695,
      "num_input_tokens_seen": 14833944,
      "step": 22680
    },
    {
      "epoch": 11.889412997903564,
      "grad_norm": 0.11790020018815994,
      "learning_rate": 0.0004227406035960798,
      "loss": 0.5101,
      "num_input_tokens_seen": 14840888,
      "step": 22685
    },
    {
      "epoch": 11.89203354297694,
      "grad_norm": 0.08978679031133652,
      "learning_rate": 0.0004225146725358758,
      "loss": 0.4656,
      "num_input_tokens_seen": 14843832,
      "step": 22690
    },
    {
      "epoch": 11.894654088050315,
      "grad_norm": 0.1107671931385994,
      "learning_rate": 0.0004222887576847183,
      "loss": 0.3738,
      "num_input_tokens_seen": 14847352,
      "step": 22695
    },
    {
      "epoch": 11.89727463312369,
      "grad_norm": 0.07257930189371109,
      "learning_rate": 0.00042206285908986626,
      "loss": 0.3552,
      "num_input_tokens_seen": 14850712,
      "step": 22700
    },
    {
      "epoch": 11.899895178197065,
      "grad_norm": 0.34544041752815247,
      "learning_rate": 0.00042183697679857484,
      "loss": 0.5232,
      "num_input_tokens_seen": 14853432,
      "step": 22705
    },
    {
      "epoch": 11.90251572327044,
      "grad_norm": 0.13240553438663483,
      "learning_rate": 0.00042161111085809604,
      "loss": 0.4954,
      "num_input_tokens_seen": 14856280,
      "step": 22710
    },
    {
      "epoch": 11.905136268343815,
      "grad_norm": 0.1405707448720932,
      "learning_rate": 0.00042138526131567855,
      "loss": 0.5198,
      "num_input_tokens_seen": 14858840,
      "step": 22715
    },
    {
      "epoch": 11.90775681341719,
      "grad_norm": 0.14981043338775635,
      "learning_rate": 0.0004211594282185677,
      "loss": 0.458,
      "num_input_tokens_seen": 14861880,
      "step": 22720
    },
    {
      "epoch": 11.910377358490566,
      "grad_norm": 0.10944559425115585,
      "learning_rate": 0.0004209336116140048,
      "loss": 0.5159,
      "num_input_tokens_seen": 14865016,
      "step": 22725
    },
    {
      "epoch": 11.91299790356394,
      "grad_norm": 0.09706705808639526,
      "learning_rate": 0.00042070781154922857,
      "loss": 0.5476,
      "num_input_tokens_seen": 14868760,
      "step": 22730
    },
    {
      "epoch": 11.915618448637316,
      "grad_norm": 0.09033816307783127,
      "learning_rate": 0.0004204820280714734,
      "loss": 0.3655,
      "num_input_tokens_seen": 14872152,
      "step": 22735
    },
    {
      "epoch": 11.918238993710691,
      "grad_norm": 0.14111310243606567,
      "learning_rate": 0.00042025626122797066,
      "loss": 0.5091,
      "num_input_tokens_seen": 14875224,
      "step": 22740
    },
    {
      "epoch": 11.920859538784066,
      "grad_norm": 0.11541431397199631,
      "learning_rate": 0.0004200305110659484,
      "loss": 0.4081,
      "num_input_tokens_seen": 14878552,
      "step": 22745
    },
    {
      "epoch": 11.923480083857442,
      "grad_norm": 0.16675011813640594,
      "learning_rate": 0.0004198047776326308,
      "loss": 0.4452,
      "num_input_tokens_seen": 14881304,
      "step": 22750
    },
    {
      "epoch": 11.926100628930818,
      "grad_norm": 0.12828218936920166,
      "learning_rate": 0.00041957906097523897,
      "loss": 0.5941,
      "num_input_tokens_seen": 14884696,
      "step": 22755
    },
    {
      "epoch": 11.928721174004194,
      "grad_norm": 0.08286920189857483,
      "learning_rate": 0.00041935336114099013,
      "loss": 0.4102,
      "num_input_tokens_seen": 14887640,
      "step": 22760
    },
    {
      "epoch": 11.931341719077569,
      "grad_norm": 0.09149932861328125,
      "learning_rate": 0.0004191276781770979,
      "loss": 0.483,
      "num_input_tokens_seen": 14890840,
      "step": 22765
    },
    {
      "epoch": 11.933962264150944,
      "grad_norm": 0.17730651795864105,
      "learning_rate": 0.00041890201213077286,
      "loss": 0.4506,
      "num_input_tokens_seen": 14894712,
      "step": 22770
    },
    {
      "epoch": 11.93658280922432,
      "grad_norm": 0.22167976200580597,
      "learning_rate": 0.00041867636304922153,
      "loss": 0.5062,
      "num_input_tokens_seen": 14897624,
      "step": 22775
    },
    {
      "epoch": 11.939203354297694,
      "grad_norm": 0.07947485148906708,
      "learning_rate": 0.00041845073097964737,
      "loss": 0.3958,
      "num_input_tokens_seen": 14900632,
      "step": 22780
    },
    {
      "epoch": 11.94182389937107,
      "grad_norm": 0.07698407769203186,
      "learning_rate": 0.0004182251159692498,
      "loss": 0.4314,
      "num_input_tokens_seen": 14903992,
      "step": 22785
    },
    {
      "epoch": 11.944444444444445,
      "grad_norm": 0.09792535752058029,
      "learning_rate": 0.0004179995180652253,
      "loss": 0.373,
      "num_input_tokens_seen": 14907032,
      "step": 22790
    },
    {
      "epoch": 11.94706498951782,
      "grad_norm": 0.07431025058031082,
      "learning_rate": 0.00041777393731476587,
      "loss": 0.4381,
      "num_input_tokens_seen": 14909656,
      "step": 22795
    },
    {
      "epoch": 11.949685534591195,
      "grad_norm": 0.06393683701753616,
      "learning_rate": 0.0004175483737650608,
      "loss": 0.2416,
      "num_input_tokens_seen": 14915608,
      "step": 22800
    },
    {
      "epoch": 11.95230607966457,
      "grad_norm": 0.21706721186637878,
      "learning_rate": 0.0004173228274632951,
      "loss": 0.6141,
      "num_input_tokens_seen": 14919256,
      "step": 22805
    },
    {
      "epoch": 11.954926624737945,
      "grad_norm": 0.14931276440620422,
      "learning_rate": 0.00041709729845665084,
      "loss": 0.6984,
      "num_input_tokens_seen": 14922520,
      "step": 22810
    },
    {
      "epoch": 11.95754716981132,
      "grad_norm": 0.2279331088066101,
      "learning_rate": 0.0004168717867923061,
      "loss": 0.4449,
      "num_input_tokens_seen": 14925336,
      "step": 22815
    },
    {
      "epoch": 11.960167714884696,
      "grad_norm": 0.09687907248735428,
      "learning_rate": 0.00041664629251743487,
      "loss": 0.4387,
      "num_input_tokens_seen": 14928056,
      "step": 22820
    },
    {
      "epoch": 11.96278825995807,
      "grad_norm": 0.17455247044563293,
      "learning_rate": 0.0004164208156792084,
      "loss": 0.4678,
      "num_input_tokens_seen": 14931992,
      "step": 22825
    },
    {
      "epoch": 11.965408805031446,
      "grad_norm": 0.10196761786937714,
      "learning_rate": 0.00041619535632479374,
      "loss": 0.5037,
      "num_input_tokens_seen": 14935800,
      "step": 22830
    },
    {
      "epoch": 11.968029350104821,
      "grad_norm": 0.14716686308383942,
      "learning_rate": 0.00041596991450135445,
      "loss": 0.4896,
      "num_input_tokens_seen": 14938968,
      "step": 22835
    },
    {
      "epoch": 11.970649895178196,
      "grad_norm": 0.12386155873537064,
      "learning_rate": 0.0004157444902560504,
      "loss": 0.3895,
      "num_input_tokens_seen": 14941400,
      "step": 22840
    },
    {
      "epoch": 11.973270440251572,
      "grad_norm": 0.10168669372797012,
      "learning_rate": 0.00041551908363603786,
      "loss": 0.4608,
      "num_input_tokens_seen": 14945080,
      "step": 22845
    },
    {
      "epoch": 11.975890985324948,
      "grad_norm": 0.20977821946144104,
      "learning_rate": 0.00041529369468846914,
      "loss": 0.3921,
      "num_input_tokens_seen": 14947448,
      "step": 22850
    },
    {
      "epoch": 11.978511530398324,
      "grad_norm": 0.10165834426879883,
      "learning_rate": 0.00041506832346049303,
      "loss": 0.4747,
      "num_input_tokens_seen": 14950712,
      "step": 22855
    },
    {
      "epoch": 11.981132075471699,
      "grad_norm": 0.15991239249706268,
      "learning_rate": 0.00041484296999925476,
      "loss": 0.4154,
      "num_input_tokens_seen": 14954072,
      "step": 22860
    },
    {
      "epoch": 11.983752620545074,
      "grad_norm": 0.09347499161958694,
      "learning_rate": 0.00041461763435189555,
      "loss": 0.435,
      "num_input_tokens_seen": 14957592,
      "step": 22865
    },
    {
      "epoch": 11.98637316561845,
      "grad_norm": 0.09588873386383057,
      "learning_rate": 0.00041439231656555315,
      "loss": 0.429,
      "num_input_tokens_seen": 14961080,
      "step": 22870
    },
    {
      "epoch": 11.988993710691824,
      "grad_norm": 0.17203505337238312,
      "learning_rate": 0.0004141670166873617,
      "loss": 0.5352,
      "num_input_tokens_seen": 14964248,
      "step": 22875
    },
    {
      "epoch": 11.9916142557652,
      "grad_norm": 0.12562446296215057,
      "learning_rate": 0.00041394173476445097,
      "loss": 0.4694,
      "num_input_tokens_seen": 14967800,
      "step": 22880
    },
    {
      "epoch": 11.994234800838575,
      "grad_norm": 0.13888895511627197,
      "learning_rate": 0.00041371647084394744,
      "loss": 0.3583,
      "num_input_tokens_seen": 14971448,
      "step": 22885
    },
    {
      "epoch": 11.99685534591195,
      "grad_norm": 0.2546660602092743,
      "learning_rate": 0.00041349122497297394,
      "loss": 0.5147,
      "num_input_tokens_seen": 14974840,
      "step": 22890
    },
    {
      "epoch": 11.999475890985325,
      "grad_norm": 0.09709873050451279,
      "learning_rate": 0.0004132659971986491,
      "loss": 0.453,
      "num_input_tokens_seen": 14977912,
      "step": 22895
    },
    {
      "epoch": 12.0,
      "eval_loss": 0.45072826743125916,
      "eval_runtime": 13.3032,
      "eval_samples_per_second": 63.744,
      "eval_steps_per_second": 15.936,
      "num_input_tokens_seen": 14977976,
      "step": 22896
    },
    {
      "epoch": 12.0020964360587,
      "grad_norm": 0.13234396278858185,
      "learning_rate": 0.00041304078756808837,
      "loss": 0.392,
      "num_input_tokens_seen": 14979736,
      "step": 22900
    },
    {
      "epoch": 12.004716981132075,
      "grad_norm": 0.06672385334968567,
      "learning_rate": 0.0004128155961284027,
      "loss": 0.4522,
      "num_input_tokens_seen": 14983864,
      "step": 22905
    },
    {
      "epoch": 12.00733752620545,
      "grad_norm": 0.15690924227237701,
      "learning_rate": 0.0004125904229266996,
      "loss": 0.4981,
      "num_input_tokens_seen": 14988152,
      "step": 22910
    },
    {
      "epoch": 12.009958071278826,
      "grad_norm": 0.07596204429864883,
      "learning_rate": 0.0004123652680100828,
      "loss": 0.4272,
      "num_input_tokens_seen": 14991096,
      "step": 22915
    },
    {
      "epoch": 12.0125786163522,
      "grad_norm": 0.1849159300327301,
      "learning_rate": 0.0004121401314256521,
      "loss": 0.5,
      "num_input_tokens_seen": 14993816,
      "step": 22920
    },
    {
      "epoch": 12.015199161425576,
      "grad_norm": 0.1803756207227707,
      "learning_rate": 0.00041191501322050363,
      "loss": 0.336,
      "num_input_tokens_seen": 14996824,
      "step": 22925
    },
    {
      "epoch": 12.017819706498951,
      "grad_norm": 0.1565752774477005,
      "learning_rate": 0.0004116899134417296,
      "loss": 0.3524,
      "num_input_tokens_seen": 14999544,
      "step": 22930
    },
    {
      "epoch": 12.020440251572326,
      "grad_norm": 0.09927923232316971,
      "learning_rate": 0.00041146483213641793,
      "loss": 0.5237,
      "num_input_tokens_seen": 15002840,
      "step": 22935
    },
    {
      "epoch": 12.023060796645701,
      "grad_norm": 0.20014633238315582,
      "learning_rate": 0.00041123976935165355,
      "loss": 0.4445,
      "num_input_tokens_seen": 15005080,
      "step": 22940
    },
    {
      "epoch": 12.025681341719078,
      "grad_norm": 0.09820938855409622,
      "learning_rate": 0.0004110147251345165,
      "loss": 0.5007,
      "num_input_tokens_seen": 15008312,
      "step": 22945
    },
    {
      "epoch": 12.028301886792454,
      "grad_norm": 0.15632982552051544,
      "learning_rate": 0.0004107896995320839,
      "loss": 0.5126,
      "num_input_tokens_seen": 15011608,
      "step": 22950
    },
    {
      "epoch": 12.030922431865829,
      "grad_norm": 0.12154441326856613,
      "learning_rate": 0.0004105646925914284,
      "loss": 0.4433,
      "num_input_tokens_seen": 15014488,
      "step": 22955
    },
    {
      "epoch": 12.033542976939204,
      "grad_norm": 0.13159726560115814,
      "learning_rate": 0.00041033970435961904,
      "loss": 0.4227,
      "num_input_tokens_seen": 15017912,
      "step": 22960
    },
    {
      "epoch": 12.036163522012579,
      "grad_norm": 0.09853596985340118,
      "learning_rate": 0.00041011473488372044,
      "loss": 0.4447,
      "num_input_tokens_seen": 15020728,
      "step": 22965
    },
    {
      "epoch": 12.038784067085954,
      "grad_norm": 0.07582273334264755,
      "learning_rate": 0.0004098897842107939,
      "loss": 0.4169,
      "num_input_tokens_seen": 15024408,
      "step": 22970
    },
    {
      "epoch": 12.04140461215933,
      "grad_norm": 0.1497984081506729,
      "learning_rate": 0.00040966485238789634,
      "loss": 0.3806,
      "num_input_tokens_seen": 15027928,
      "step": 22975
    },
    {
      "epoch": 12.044025157232705,
      "grad_norm": 0.10237370431423187,
      "learning_rate": 0.00040943993946208126,
      "loss": 0.4277,
      "num_input_tokens_seen": 15031480,
      "step": 22980
    },
    {
      "epoch": 12.04664570230608,
      "grad_norm": 0.10474973917007446,
      "learning_rate": 0.00040921504548039765,
      "loss": 0.5145,
      "num_input_tokens_seen": 15034040,
      "step": 22985
    },
    {
      "epoch": 12.049266247379455,
      "grad_norm": 0.058807313442230225,
      "learning_rate": 0.00040899017048989073,
      "loss": 0.3311,
      "num_input_tokens_seen": 15037464,
      "step": 22990
    },
    {
      "epoch": 12.05188679245283,
      "grad_norm": 0.11820285767316818,
      "learning_rate": 0.00040876531453760186,
      "loss": 0.4569,
      "num_input_tokens_seen": 15040728,
      "step": 22995
    },
    {
      "epoch": 12.054507337526205,
      "grad_norm": 0.06316578388214111,
      "learning_rate": 0.00040854047767056824,
      "loss": 0.3429,
      "num_input_tokens_seen": 15044632,
      "step": 23000
    },
    {
      "epoch": 12.05712788259958,
      "grad_norm": 0.09975665807723999,
      "learning_rate": 0.00040831565993582335,
      "loss": 0.3782,
      "num_input_tokens_seen": 15047352,
      "step": 23005
    },
    {
      "epoch": 12.059748427672956,
      "grad_norm": 0.13286684453487396,
      "learning_rate": 0.0004080908613803964,
      "loss": 0.387,
      "num_input_tokens_seen": 15050520,
      "step": 23010
    },
    {
      "epoch": 12.06236897274633,
      "grad_norm": 0.09855695068836212,
      "learning_rate": 0.0004078660820513128,
      "loss": 0.4124,
      "num_input_tokens_seen": 15053208,
      "step": 23015
    },
    {
      "epoch": 12.064989517819706,
      "grad_norm": 0.13919207453727722,
      "learning_rate": 0.0004076413219955937,
      "loss": 0.4735,
      "num_input_tokens_seen": 15055736,
      "step": 23020
    },
    {
      "epoch": 12.067610062893081,
      "grad_norm": 0.16854465007781982,
      "learning_rate": 0.00040741658126025614,
      "loss": 0.3498,
      "num_input_tokens_seen": 15058648,
      "step": 23025
    },
    {
      "epoch": 12.070230607966456,
      "grad_norm": 0.21223966777324677,
      "learning_rate": 0.0004071918598923136,
      "loss": 0.4808,
      "num_input_tokens_seen": 15061208,
      "step": 23030
    },
    {
      "epoch": 12.072851153039831,
      "grad_norm": 0.1697102040052414,
      "learning_rate": 0.0004069671579387753,
      "loss": 0.3403,
      "num_input_tokens_seen": 15065208,
      "step": 23035
    },
    {
      "epoch": 12.075471698113208,
      "grad_norm": 0.10359559208154678,
      "learning_rate": 0.000406742475446646,
      "loss": 0.4609,
      "num_input_tokens_seen": 15067928,
      "step": 23040
    },
    {
      "epoch": 12.078092243186584,
      "grad_norm": 0.06702442467212677,
      "learning_rate": 0.0004065178124629272,
      "loss": 0.4128,
      "num_input_tokens_seen": 15071192,
      "step": 23045
    },
    {
      "epoch": 12.080712788259959,
      "grad_norm": 0.14662295579910278,
      "learning_rate": 0.0004062931690346153,
      "loss": 0.4334,
      "num_input_tokens_seen": 15074456,
      "step": 23050
    },
    {
      "epoch": 12.083333333333334,
      "grad_norm": 0.12322616577148438,
      "learning_rate": 0.0004060685452087034,
      "loss": 0.5958,
      "num_input_tokens_seen": 15078232,
      "step": 23055
    },
    {
      "epoch": 12.085953878406709,
      "grad_norm": 0.09586436301469803,
      "learning_rate": 0.00040584394103218026,
      "loss": 0.4418,
      "num_input_tokens_seen": 15081336,
      "step": 23060
    },
    {
      "epoch": 12.088574423480084,
      "grad_norm": 0.33989059925079346,
      "learning_rate": 0.0004056193565520304,
      "loss": 0.546,
      "num_input_tokens_seen": 15085048,
      "step": 23065
    },
    {
      "epoch": 12.09119496855346,
      "grad_norm": 0.0771021619439125,
      "learning_rate": 0.0004053947918152344,
      "loss": 0.4629,
      "num_input_tokens_seen": 15092280,
      "step": 23070
    },
    {
      "epoch": 12.093815513626835,
      "grad_norm": 0.056946247816085815,
      "learning_rate": 0.0004051702468687688,
      "loss": 0.4013,
      "num_input_tokens_seen": 15096568,
      "step": 23075
    },
    {
      "epoch": 12.09643605870021,
      "grad_norm": 0.06938891112804413,
      "learning_rate": 0.0004049457217596055,
      "loss": 0.4937,
      "num_input_tokens_seen": 15099224,
      "step": 23080
    },
    {
      "epoch": 12.099056603773585,
      "grad_norm": 0.09755196422338486,
      "learning_rate": 0.0004047212165347129,
      "loss": 0.4716,
      "num_input_tokens_seen": 15103096,
      "step": 23085
    },
    {
      "epoch": 12.10167714884696,
      "grad_norm": 0.1072225272655487,
      "learning_rate": 0.00040449673124105464,
      "loss": 0.4538,
      "num_input_tokens_seen": 15105656,
      "step": 23090
    },
    {
      "epoch": 12.104297693920335,
      "grad_norm": 0.11876443773508072,
      "learning_rate": 0.00040427226592559064,
      "loss": 0.3659,
      "num_input_tokens_seen": 15108696,
      "step": 23095
    },
    {
      "epoch": 12.10691823899371,
      "grad_norm": 0.09912941604852676,
      "learning_rate": 0.00040404782063527684,
      "loss": 0.4907,
      "num_input_tokens_seen": 15111576,
      "step": 23100
    },
    {
      "epoch": 12.109538784067086,
      "grad_norm": 0.19259114563465118,
      "learning_rate": 0.00040382339541706393,
      "loss": 0.3927,
      "num_input_tokens_seen": 15115192,
      "step": 23105
    },
    {
      "epoch": 12.11215932914046,
      "grad_norm": 0.08177430182695389,
      "learning_rate": 0.0004035989903178995,
      "loss": 0.4913,
      "num_input_tokens_seen": 15119160,
      "step": 23110
    },
    {
      "epoch": 12.114779874213836,
      "grad_norm": 0.22300514578819275,
      "learning_rate": 0.0004033746053847266,
      "loss": 0.3519,
      "num_input_tokens_seen": 15122136,
      "step": 23115
    },
    {
      "epoch": 12.117400419287211,
      "grad_norm": 0.1122656911611557,
      "learning_rate": 0.00040315024066448374,
      "loss": 0.3776,
      "num_input_tokens_seen": 15126328,
      "step": 23120
    },
    {
      "epoch": 12.120020964360586,
      "grad_norm": 0.11645995825529099,
      "learning_rate": 0.00040292589620410577,
      "loss": 0.3074,
      "num_input_tokens_seen": 15129304,
      "step": 23125
    },
    {
      "epoch": 12.122641509433961,
      "grad_norm": 0.08352500945329666,
      "learning_rate": 0.0004027015720505229,
      "loss": 0.4106,
      "num_input_tokens_seen": 15131768,
      "step": 23130
    },
    {
      "epoch": 12.125262054507338,
      "grad_norm": 0.12311871349811554,
      "learning_rate": 0.0004024772682506609,
      "loss": 0.4077,
      "num_input_tokens_seen": 15135128,
      "step": 23135
    },
    {
      "epoch": 12.127882599580714,
      "grad_norm": 0.12094567716121674,
      "learning_rate": 0.0004022529848514419,
      "loss": 0.4031,
      "num_input_tokens_seen": 15137752,
      "step": 23140
    },
    {
      "epoch": 12.130503144654089,
      "grad_norm": 0.11446584761142731,
      "learning_rate": 0.00040202872189978324,
      "loss": 0.3265,
      "num_input_tokens_seen": 15141912,
      "step": 23145
    },
    {
      "epoch": 12.133123689727464,
      "grad_norm": 0.09426053613424301,
      "learning_rate": 0.0004018044794425983,
      "loss": 0.3791,
      "num_input_tokens_seen": 15144792,
      "step": 23150
    },
    {
      "epoch": 12.135744234800839,
      "grad_norm": 0.06169385835528374,
      "learning_rate": 0.00040158025752679596,
      "loss": 0.4626,
      "num_input_tokens_seen": 15149624,
      "step": 23155
    },
    {
      "epoch": 12.138364779874214,
      "grad_norm": 0.08943289518356323,
      "learning_rate": 0.0004013560561992811,
      "loss": 0.3726,
      "num_input_tokens_seen": 15152856,
      "step": 23160
    },
    {
      "epoch": 12.14098532494759,
      "grad_norm": 0.24277928471565247,
      "learning_rate": 0.0004011318755069537,
      "loss": 0.5382,
      "num_input_tokens_seen": 15155256,
      "step": 23165
    },
    {
      "epoch": 12.143605870020965,
      "grad_norm": 0.12481572479009628,
      "learning_rate": 0.00040090771549670994,
      "loss": 0.4691,
      "num_input_tokens_seen": 15157976,
      "step": 23170
    },
    {
      "epoch": 12.14622641509434,
      "grad_norm": 0.11072738468647003,
      "learning_rate": 0.00040068357621544167,
      "loss": 0.6339,
      "num_input_tokens_seen": 15160344,
      "step": 23175
    },
    {
      "epoch": 12.148846960167715,
      "grad_norm": 0.11660675704479218,
      "learning_rate": 0.00040045945771003625,
      "loss": 0.565,
      "num_input_tokens_seen": 15163032,
      "step": 23180
    },
    {
      "epoch": 12.15146750524109,
      "grad_norm": 0.088015615940094,
      "learning_rate": 0.0004002353600273767,
      "loss": 0.4892,
      "num_input_tokens_seen": 15165784,
      "step": 23185
    },
    {
      "epoch": 12.154088050314465,
      "grad_norm": 0.0952712818980217,
      "learning_rate": 0.0004000112832143415,
      "loss": 0.5124,
      "num_input_tokens_seen": 15168664,
      "step": 23190
    },
    {
      "epoch": 12.15670859538784,
      "grad_norm": 0.0977185070514679,
      "learning_rate": 0.00039978722731780523,
      "loss": 0.4969,
      "num_input_tokens_seen": 15171576,
      "step": 23195
    },
    {
      "epoch": 12.159329140461216,
      "grad_norm": 0.08170977979898453,
      "learning_rate": 0.00039956319238463754,
      "loss": 0.3718,
      "num_input_tokens_seen": 15175160,
      "step": 23200
    },
    {
      "epoch": 12.16194968553459,
      "grad_norm": 0.101689413189888,
      "learning_rate": 0.00039933917846170436,
      "loss": 0.5215,
      "num_input_tokens_seen": 15178744,
      "step": 23205
    },
    {
      "epoch": 12.164570230607966,
      "grad_norm": 0.14171530306339264,
      "learning_rate": 0.0003991151855958665,
      "loss": 0.4609,
      "num_input_tokens_seen": 15182264,
      "step": 23210
    },
    {
      "epoch": 12.167190775681341,
      "grad_norm": 0.17302334308624268,
      "learning_rate": 0.00039889121383398113,
      "loss": 0.5069,
      "num_input_tokens_seen": 15184984,
      "step": 23215
    },
    {
      "epoch": 12.169811320754716,
      "grad_norm": 0.19397279620170593,
      "learning_rate": 0.00039866726322290014,
      "loss": 0.4819,
      "num_input_tokens_seen": 15187448,
      "step": 23220
    },
    {
      "epoch": 12.172431865828091,
      "grad_norm": 0.10791949927806854,
      "learning_rate": 0.0003984433338094715,
      "loss": 0.4496,
      "num_input_tokens_seen": 15190872,
      "step": 23225
    },
    {
      "epoch": 12.175052410901468,
      "grad_norm": 0.1912316083908081,
      "learning_rate": 0.000398219425640539,
      "loss": 0.4878,
      "num_input_tokens_seen": 15193400,
      "step": 23230
    },
    {
      "epoch": 12.177672955974844,
      "grad_norm": 0.1460862159729004,
      "learning_rate": 0.0003979955387629413,
      "loss": 0.4202,
      "num_input_tokens_seen": 15197336,
      "step": 23235
    },
    {
      "epoch": 12.180293501048219,
      "grad_norm": 0.16668109595775604,
      "learning_rate": 0.0003977716732235133,
      "loss": 0.5308,
      "num_input_tokens_seen": 15200504,
      "step": 23240
    },
    {
      "epoch": 12.182914046121594,
      "grad_norm": 0.12162182480096817,
      "learning_rate": 0.000397547829069085,
      "loss": 0.5349,
      "num_input_tokens_seen": 15203640,
      "step": 23245
    },
    {
      "epoch": 12.185534591194969,
      "grad_norm": 0.11450056731700897,
      "learning_rate": 0.000397324006346482,
      "loss": 0.4203,
      "num_input_tokens_seen": 15206744,
      "step": 23250
    },
    {
      "epoch": 12.188155136268344,
      "grad_norm": 0.11970724910497665,
      "learning_rate": 0.0003971002051025253,
      "loss": 0.3474,
      "num_input_tokens_seen": 15211064,
      "step": 23255
    },
    {
      "epoch": 12.19077568134172,
      "grad_norm": 0.11579302698373795,
      "learning_rate": 0.000396876425384032,
      "loss": 0.5227,
      "num_input_tokens_seen": 15214040,
      "step": 23260
    },
    {
      "epoch": 12.193396226415095,
      "grad_norm": 0.07833053916692734,
      "learning_rate": 0.00039665266723781377,
      "loss": 0.5973,
      "num_input_tokens_seen": 15216440,
      "step": 23265
    },
    {
      "epoch": 12.19601677148847,
      "grad_norm": 0.17824985086917877,
      "learning_rate": 0.00039642893071067877,
      "loss": 0.4637,
      "num_input_tokens_seen": 15219352,
      "step": 23270
    },
    {
      "epoch": 12.198637316561845,
      "grad_norm": 0.13978882133960724,
      "learning_rate": 0.0003962052158494298,
      "loss": 0.4837,
      "num_input_tokens_seen": 15225432,
      "step": 23275
    },
    {
      "epoch": 12.20125786163522,
      "grad_norm": 0.06034580245614052,
      "learning_rate": 0.00039598152270086534,
      "loss": 0.4973,
      "num_input_tokens_seen": 15229528,
      "step": 23280
    },
    {
      "epoch": 12.203878406708595,
      "grad_norm": 0.12476417422294617,
      "learning_rate": 0.00039575785131177975,
      "loss": 0.4571,
      "num_input_tokens_seen": 15233208,
      "step": 23285
    },
    {
      "epoch": 12.20649895178197,
      "grad_norm": 0.08594657480716705,
      "learning_rate": 0.0003955342017289624,
      "loss": 0.3504,
      "num_input_tokens_seen": 15236504,
      "step": 23290
    },
    {
      "epoch": 12.209119496855346,
      "grad_norm": 0.08605960011482239,
      "learning_rate": 0.0003953105739991982,
      "loss": 0.4109,
      "num_input_tokens_seen": 15239768,
      "step": 23295
    },
    {
      "epoch": 12.21174004192872,
      "grad_norm": 0.16326744854450226,
      "learning_rate": 0.0003950869681692678,
      "loss": 0.5449,
      "num_input_tokens_seen": 15243032,
      "step": 23300
    },
    {
      "epoch": 12.214360587002096,
      "grad_norm": 0.1603202521800995,
      "learning_rate": 0.0003948633842859465,
      "loss": 0.4536,
      "num_input_tokens_seen": 15245944,
      "step": 23305
    },
    {
      "epoch": 12.216981132075471,
      "grad_norm": 0.05899558216333389,
      "learning_rate": 0.00039463982239600575,
      "loss": 0.3805,
      "num_input_tokens_seen": 15249880,
      "step": 23310
    },
    {
      "epoch": 12.219601677148846,
      "grad_norm": 0.13547047972679138,
      "learning_rate": 0.00039441628254621215,
      "loss": 0.3803,
      "num_input_tokens_seen": 15252984,
      "step": 23315
    },
    {
      "epoch": 12.222222222222221,
      "grad_norm": 0.17493024468421936,
      "learning_rate": 0.00039419276478332773,
      "loss": 0.4324,
      "num_input_tokens_seen": 15256024,
      "step": 23320
    },
    {
      "epoch": 12.224842767295598,
      "grad_norm": 0.1449093222618103,
      "learning_rate": 0.0003939692691541097,
      "loss": 0.3401,
      "num_input_tokens_seen": 15259608,
      "step": 23325
    },
    {
      "epoch": 12.227463312368974,
      "grad_norm": 0.20935870707035065,
      "learning_rate": 0.00039374579570531114,
      "loss": 0.3338,
      "num_input_tokens_seen": 15262200,
      "step": 23330
    },
    {
      "epoch": 12.230083857442349,
      "grad_norm": 0.13454602658748627,
      "learning_rate": 0.0003935223444836797,
      "loss": 0.3655,
      "num_input_tokens_seen": 15265336,
      "step": 23335
    },
    {
      "epoch": 12.232704402515724,
      "grad_norm": 0.12750838696956635,
      "learning_rate": 0.0003932989155359591,
      "loss": 0.5695,
      "num_input_tokens_seen": 15268024,
      "step": 23340
    },
    {
      "epoch": 12.235324947589099,
      "grad_norm": 0.1087227463722229,
      "learning_rate": 0.000393075508908888,
      "loss": 0.542,
      "num_input_tokens_seen": 15271480,
      "step": 23345
    },
    {
      "epoch": 12.237945492662474,
      "grad_norm": 0.10434108972549438,
      "learning_rate": 0.00039285212464920064,
      "loss": 0.4982,
      "num_input_tokens_seen": 15274296,
      "step": 23350
    },
    {
      "epoch": 12.24056603773585,
      "grad_norm": 0.11509411782026291,
      "learning_rate": 0.0003926287628036265,
      "loss": 0.4109,
      "num_input_tokens_seen": 15276952,
      "step": 23355
    },
    {
      "epoch": 12.243186582809225,
      "grad_norm": 0.11330464482307434,
      "learning_rate": 0.00039240542341889003,
      "loss": 0.3933,
      "num_input_tokens_seen": 15280056,
      "step": 23360
    },
    {
      "epoch": 12.2458071278826,
      "grad_norm": 0.12651409208774567,
      "learning_rate": 0.0003921821065417116,
      "loss": 0.4843,
      "num_input_tokens_seen": 15283256,
      "step": 23365
    },
    {
      "epoch": 12.248427672955975,
      "grad_norm": 0.21175941824913025,
      "learning_rate": 0.0003919588122188063,
      "loss": 0.4243,
      "num_input_tokens_seen": 15286808,
      "step": 23370
    },
    {
      "epoch": 12.25104821802935,
      "grad_norm": 0.09375269711017609,
      "learning_rate": 0.000391735540496885,
      "loss": 0.4967,
      "num_input_tokens_seen": 15291000,
      "step": 23375
    },
    {
      "epoch": 12.253668763102725,
      "grad_norm": 0.07450511306524277,
      "learning_rate": 0.00039151229142265337,
      "loss": 0.4928,
      "num_input_tokens_seen": 15294744,
      "step": 23380
    },
    {
      "epoch": 12.2562893081761,
      "grad_norm": 0.1236739233136177,
      "learning_rate": 0.00039128906504281295,
      "loss": 0.4574,
      "num_input_tokens_seen": 15297752,
      "step": 23385
    },
    {
      "epoch": 12.258909853249476,
      "grad_norm": 0.09416155517101288,
      "learning_rate": 0.00039106586140405964,
      "loss": 0.4128,
      "num_input_tokens_seen": 15301208,
      "step": 23390
    },
    {
      "epoch": 12.26153039832285,
      "grad_norm": 0.08783327043056488,
      "learning_rate": 0.00039084268055308537,
      "loss": 0.4937,
      "num_input_tokens_seen": 15304984,
      "step": 23395
    },
    {
      "epoch": 12.264150943396226,
      "grad_norm": 0.12718455493450165,
      "learning_rate": 0.00039061952253657703,
      "loss": 0.3945,
      "num_input_tokens_seen": 15307896,
      "step": 23400
    },
    {
      "epoch": 12.266771488469601,
      "grad_norm": 0.07293105125427246,
      "learning_rate": 0.0003903963874012166,
      "loss": 0.4097,
      "num_input_tokens_seen": 15311064,
      "step": 23405
    },
    {
      "epoch": 12.269392033542976,
      "grad_norm": 0.08324766159057617,
      "learning_rate": 0.0003901732751936815,
      "loss": 0.3894,
      "num_input_tokens_seen": 15314136,
      "step": 23410
    },
    {
      "epoch": 12.272012578616351,
      "grad_norm": 0.1061493381857872,
      "learning_rate": 0.00038995018596064447,
      "loss": 0.6177,
      "num_input_tokens_seen": 15317464,
      "step": 23415
    },
    {
      "epoch": 12.274633123689728,
      "grad_norm": 0.08049294352531433,
      "learning_rate": 0.00038972711974877294,
      "loss": 0.4157,
      "num_input_tokens_seen": 15320920,
      "step": 23420
    },
    {
      "epoch": 12.277253668763104,
      "grad_norm": 0.19546131789684296,
      "learning_rate": 0.0003895040766047298,
      "loss": 0.2967,
      "num_input_tokens_seen": 15323800,
      "step": 23425
    },
    {
      "epoch": 12.279874213836479,
      "grad_norm": 0.09268485754728317,
      "learning_rate": 0.0003892810565751733,
      "loss": 0.5392,
      "num_input_tokens_seen": 15327512,
      "step": 23430
    },
    {
      "epoch": 12.282494758909854,
      "grad_norm": 0.11811959743499756,
      "learning_rate": 0.0003890580597067566,
      "loss": 0.4536,
      "num_input_tokens_seen": 15331064,
      "step": 23435
    },
    {
      "epoch": 12.285115303983229,
      "grad_norm": 0.08995935320854187,
      "learning_rate": 0.0003888350860461281,
      "loss": 0.4707,
      "num_input_tokens_seen": 15334424,
      "step": 23440
    },
    {
      "epoch": 12.287735849056604,
      "grad_norm": 0.17044036090373993,
      "learning_rate": 0.0003886121356399315,
      "loss": 0.4354,
      "num_input_tokens_seen": 15337720,
      "step": 23445
    },
    {
      "epoch": 12.29035639412998,
      "grad_norm": 0.17395779490470886,
      "learning_rate": 0.0003883892085348052,
      "loss": 0.5198,
      "num_input_tokens_seen": 15340216,
      "step": 23450
    },
    {
      "epoch": 12.292976939203355,
      "grad_norm": 0.12543435394763947,
      "learning_rate": 0.0003881663047773832,
      "loss": 0.3891,
      "num_input_tokens_seen": 15343736,
      "step": 23455
    },
    {
      "epoch": 12.29559748427673,
      "grad_norm": 0.09229276329278946,
      "learning_rate": 0.00038794342441429426,
      "loss": 0.5345,
      "num_input_tokens_seen": 15347000,
      "step": 23460
    },
    {
      "epoch": 12.298218029350105,
      "grad_norm": 0.15900838375091553,
      "learning_rate": 0.00038772056749216267,
      "loss": 0.4733,
      "num_input_tokens_seen": 15349848,
      "step": 23465
    },
    {
      "epoch": 12.30083857442348,
      "grad_norm": 0.0747503936290741,
      "learning_rate": 0.00038749773405760744,
      "loss": 0.4883,
      "num_input_tokens_seen": 15353272,
      "step": 23470
    },
    {
      "epoch": 12.303459119496855,
      "grad_norm": 0.12311332672834396,
      "learning_rate": 0.00038727492415724265,
      "loss": 0.3194,
      "num_input_tokens_seen": 15355960,
      "step": 23475
    },
    {
      "epoch": 12.30607966457023,
      "grad_norm": 0.11748093366622925,
      "learning_rate": 0.00038705213783767767,
      "loss": 0.5273,
      "num_input_tokens_seen": 15359800,
      "step": 23480
    },
    {
      "epoch": 12.308700209643606,
      "grad_norm": 0.13182376325130463,
      "learning_rate": 0.00038682937514551686,
      "loss": 0.2974,
      "num_input_tokens_seen": 15363640,
      "step": 23485
    },
    {
      "epoch": 12.31132075471698,
      "grad_norm": 0.06508216261863708,
      "learning_rate": 0.0003866066361273596,
      "loss": 0.3965,
      "num_input_tokens_seen": 15367768,
      "step": 23490
    },
    {
      "epoch": 12.313941299790356,
      "grad_norm": 0.12120147794485092,
      "learning_rate": 0.00038638392082980056,
      "loss": 0.3699,
      "num_input_tokens_seen": 15370680,
      "step": 23495
    },
    {
      "epoch": 12.316561844863731,
      "grad_norm": 0.102361299097538,
      "learning_rate": 0.0003861612292994292,
      "loss": 0.4126,
      "num_input_tokens_seen": 15374008,
      "step": 23500
    },
    {
      "epoch": 12.319182389937106,
      "grad_norm": 0.1215820237994194,
      "learning_rate": 0.0003859385615828297,
      "loss": 0.4949,
      "num_input_tokens_seen": 15377976,
      "step": 23505
    },
    {
      "epoch": 12.321802935010481,
      "grad_norm": 0.0983039066195488,
      "learning_rate": 0.00038571591772658186,
      "loss": 0.5448,
      "num_input_tokens_seen": 15381144,
      "step": 23510
    },
    {
      "epoch": 12.324423480083858,
      "grad_norm": 0.1311172991991043,
      "learning_rate": 0.0003854932977772602,
      "loss": 0.505,
      "num_input_tokens_seen": 15385144,
      "step": 23515
    },
    {
      "epoch": 12.327044025157234,
      "grad_norm": 0.08221879601478577,
      "learning_rate": 0.00038527070178143435,
      "loss": 0.4586,
      "num_input_tokens_seen": 15388504,
      "step": 23520
    },
    {
      "epoch": 12.329664570230609,
      "grad_norm": 0.19513355195522308,
      "learning_rate": 0.00038504812978566873,
      "loss": 0.5285,
      "num_input_tokens_seen": 15391448,
      "step": 23525
    },
    {
      "epoch": 12.332285115303984,
      "grad_norm": 0.15988291800022125,
      "learning_rate": 0.00038482558183652307,
      "loss": 0.3993,
      "num_input_tokens_seen": 15393816,
      "step": 23530
    },
    {
      "epoch": 12.334905660377359,
      "grad_norm": 0.12361207604408264,
      "learning_rate": 0.00038460305798055164,
      "loss": 0.3393,
      "num_input_tokens_seen": 15396888,
      "step": 23535
    },
    {
      "epoch": 12.337526205450734,
      "grad_norm": 0.10125768184661865,
      "learning_rate": 0.00038438055826430385,
      "loss": 0.3399,
      "num_input_tokens_seen": 15399352,
      "step": 23540
    },
    {
      "epoch": 12.34014675052411,
      "grad_norm": 0.058366842567920685,
      "learning_rate": 0.0003841580827343243,
      "loss": 0.5758,
      "num_input_tokens_seen": 15404152,
      "step": 23545
    },
    {
      "epoch": 12.342767295597485,
      "grad_norm": 0.1321515142917633,
      "learning_rate": 0.00038393563143715215,
      "loss": 0.3668,
      "num_input_tokens_seen": 15407000,
      "step": 23550
    },
    {
      "epoch": 12.34538784067086,
      "grad_norm": 0.11600610613822937,
      "learning_rate": 0.00038371320441932195,
      "loss": 0.4415,
      "num_input_tokens_seen": 15410360,
      "step": 23555
    },
    {
      "epoch": 12.348008385744235,
      "grad_norm": 0.08937515318393707,
      "learning_rate": 0.00038349080172736267,
      "loss": 0.4296,
      "num_input_tokens_seen": 15413560,
      "step": 23560
    },
    {
      "epoch": 12.35062893081761,
      "grad_norm": 0.05862487480044365,
      "learning_rate": 0.00038326842340779833,
      "loss": 0.4296,
      "num_input_tokens_seen": 15417400,
      "step": 23565
    },
    {
      "epoch": 12.353249475890985,
      "grad_norm": 0.14319083094596863,
      "learning_rate": 0.00038304606950714803,
      "loss": 0.4744,
      "num_input_tokens_seen": 15420248,
      "step": 23570
    },
    {
      "epoch": 12.35587002096436,
      "grad_norm": 0.20690298080444336,
      "learning_rate": 0.0003828237400719259,
      "loss": 0.515,
      "num_input_tokens_seen": 15423320,
      "step": 23575
    },
    {
      "epoch": 12.358490566037736,
      "grad_norm": 0.10361813753843307,
      "learning_rate": 0.00038260143514864037,
      "loss": 0.4394,
      "num_input_tokens_seen": 15426840,
      "step": 23580
    },
    {
      "epoch": 12.36111111111111,
      "grad_norm": 0.09424229711294174,
      "learning_rate": 0.0003823791547837955,
      "loss": 0.4301,
      "num_input_tokens_seen": 15430488,
      "step": 23585
    },
    {
      "epoch": 12.363731656184486,
      "grad_norm": 0.15390793979167938,
      "learning_rate": 0.0003821568990238894,
      "loss": 0.5636,
      "num_input_tokens_seen": 15433432,
      "step": 23590
    },
    {
      "epoch": 12.366352201257861,
      "grad_norm": 0.09897118806838989,
      "learning_rate": 0.0003819346679154155,
      "loss": 0.3488,
      "num_input_tokens_seen": 15437240,
      "step": 23595
    },
    {
      "epoch": 12.368972746331236,
      "grad_norm": 0.1264113187789917,
      "learning_rate": 0.0003817124615048623,
      "loss": 0.3917,
      "num_input_tokens_seen": 15440792,
      "step": 23600
    },
    {
      "epoch": 12.371593291404611,
      "grad_norm": 0.10780031234025955,
      "learning_rate": 0.00038149027983871243,
      "loss": 0.4135,
      "num_input_tokens_seen": 15443928,
      "step": 23605
    },
    {
      "epoch": 12.374213836477987,
      "grad_norm": 0.08643759787082672,
      "learning_rate": 0.00038126812296344415,
      "loss": 0.5,
      "num_input_tokens_seen": 15446936,
      "step": 23610
    },
    {
      "epoch": 12.376834381551364,
      "grad_norm": 0.16747239232063293,
      "learning_rate": 0.0003810459909255301,
      "loss": 0.4195,
      "num_input_tokens_seen": 15450168,
      "step": 23615
    },
    {
      "epoch": 12.379454926624739,
      "grad_norm": 0.11570702493190765,
      "learning_rate": 0.0003808238837714374,
      "loss": 0.4478,
      "num_input_tokens_seen": 15453592,
      "step": 23620
    },
    {
      "epoch": 12.382075471698114,
      "grad_norm": 0.10815760493278503,
      "learning_rate": 0.0003806018015476287,
      "loss": 0.5315,
      "num_input_tokens_seen": 15460056,
      "step": 23625
    },
    {
      "epoch": 12.384696016771489,
      "grad_norm": 0.09318219125270844,
      "learning_rate": 0.0003803797443005609,
      "loss": 0.4059,
      "num_input_tokens_seen": 15463160,
      "step": 23630
    },
    {
      "epoch": 12.387316561844864,
      "grad_norm": 0.1451503038406372,
      "learning_rate": 0.0003801577120766859,
      "loss": 0.6934,
      "num_input_tokens_seen": 15466360,
      "step": 23635
    },
    {
      "epoch": 12.38993710691824,
      "grad_norm": 0.1436474770307541,
      "learning_rate": 0.0003799357049224505,
      "loss": 0.6222,
      "num_input_tokens_seen": 15469112,
      "step": 23640
    },
    {
      "epoch": 12.392557651991615,
      "grad_norm": 0.15567705035209656,
      "learning_rate": 0.0003797137228842956,
      "loss": 0.4212,
      "num_input_tokens_seen": 15472088,
      "step": 23645
    },
    {
      "epoch": 12.39517819706499,
      "grad_norm": 0.0861475020647049,
      "learning_rate": 0.0003794917660086576,
      "loss": 0.3388,
      "num_input_tokens_seen": 15475384,
      "step": 23650
    },
    {
      "epoch": 12.397798742138365,
      "grad_norm": 0.12002015113830566,
      "learning_rate": 0.0003792698343419674,
      "loss": 0.4475,
      "num_input_tokens_seen": 15477528,
      "step": 23655
    },
    {
      "epoch": 12.40041928721174,
      "grad_norm": 0.22725124657154083,
      "learning_rate": 0.0003790479279306505,
      "loss": 0.4207,
      "num_input_tokens_seen": 15479768,
      "step": 23660
    },
    {
      "epoch": 12.403039832285115,
      "grad_norm": 0.09456928819417953,
      "learning_rate": 0.0003788260468211271,
      "loss": 0.8226,
      "num_input_tokens_seen": 15482264,
      "step": 23665
    },
    {
      "epoch": 12.40566037735849,
      "grad_norm": 0.1020938903093338,
      "learning_rate": 0.0003786041910598125,
      "loss": 0.483,
      "num_input_tokens_seen": 15485144,
      "step": 23670
    },
    {
      "epoch": 12.408280922431866,
      "grad_norm": 0.13193237781524658,
      "learning_rate": 0.0003783823606931159,
      "loss": 0.3281,
      "num_input_tokens_seen": 15487480,
      "step": 23675
    },
    {
      "epoch": 12.41090146750524,
      "grad_norm": 0.10140050947666168,
      "learning_rate": 0.0003781605557674421,
      "loss": 0.4757,
      "num_input_tokens_seen": 15491576,
      "step": 23680
    },
    {
      "epoch": 12.413522012578616,
      "grad_norm": 0.12867695093154907,
      "learning_rate": 0.0003779387763291899,
      "loss": 0.5199,
      "num_input_tokens_seen": 15494328,
      "step": 23685
    },
    {
      "epoch": 12.416142557651991,
      "grad_norm": 0.11432084441184998,
      "learning_rate": 0.0003777170224247533,
      "loss": 0.5835,
      "num_input_tokens_seen": 15498360,
      "step": 23690
    },
    {
      "epoch": 12.418763102725366,
      "grad_norm": 0.17992976307868958,
      "learning_rate": 0.0003774952941005204,
      "loss": 0.3886,
      "num_input_tokens_seen": 15501176,
      "step": 23695
    },
    {
      "epoch": 12.421383647798741,
      "grad_norm": 0.12497485429048538,
      "learning_rate": 0.00037727359140287455,
      "loss": 0.4005,
      "num_input_tokens_seen": 15504440,
      "step": 23700
    },
    {
      "epoch": 12.424004192872117,
      "grad_norm": 0.14184589684009552,
      "learning_rate": 0.00037705191437819316,
      "loss": 0.4542,
      "num_input_tokens_seen": 15507512,
      "step": 23705
    },
    {
      "epoch": 12.426624737945493,
      "grad_norm": 0.174063041806221,
      "learning_rate": 0.00037683026307284853,
      "loss": 0.5047,
      "num_input_tokens_seen": 15510840,
      "step": 23710
    },
    {
      "epoch": 12.429245283018869,
      "grad_norm": 0.16919510066509247,
      "learning_rate": 0.0003766086375332077,
      "loss": 0.5048,
      "num_input_tokens_seen": 15513656,
      "step": 23715
    },
    {
      "epoch": 12.431865828092244,
      "grad_norm": 0.08404181152582169,
      "learning_rate": 0.0003763870378056321,
      "loss": 0.3569,
      "num_input_tokens_seen": 15516952,
      "step": 23720
    },
    {
      "epoch": 12.434486373165619,
      "grad_norm": 0.13214141130447388,
      "learning_rate": 0.00037616546393647824,
      "loss": 0.4144,
      "num_input_tokens_seen": 15519832,
      "step": 23725
    },
    {
      "epoch": 12.437106918238994,
      "grad_norm": 0.08690280467271805,
      "learning_rate": 0.0003759439159720962,
      "loss": 0.4938,
      "num_input_tokens_seen": 15523480,
      "step": 23730
    },
    {
      "epoch": 12.43972746331237,
      "grad_norm": 0.19758513569831848,
      "learning_rate": 0.0003757223939588318,
      "loss": 0.4463,
      "num_input_tokens_seen": 15526264,
      "step": 23735
    },
    {
      "epoch": 12.442348008385745,
      "grad_norm": 0.15502165257930756,
      "learning_rate": 0.00037550089794302464,
      "loss": 0.5269,
      "num_input_tokens_seen": 15529848,
      "step": 23740
    },
    {
      "epoch": 12.44496855345912,
      "grad_norm": 0.09539921581745148,
      "learning_rate": 0.0003752794279710094,
      "loss": 0.3081,
      "num_input_tokens_seen": 15533368,
      "step": 23745
    },
    {
      "epoch": 12.447589098532495,
      "grad_norm": 0.07943040877580643,
      "learning_rate": 0.0003750579840891148,
      "loss": 0.3864,
      "num_input_tokens_seen": 15537080,
      "step": 23750
    },
    {
      "epoch": 12.45020964360587,
      "grad_norm": 0.11450780928134918,
      "learning_rate": 0.0003748365663436647,
      "loss": 0.3682,
      "num_input_tokens_seen": 15540248,
      "step": 23755
    },
    {
      "epoch": 12.452830188679245,
      "grad_norm": 0.11777934432029724,
      "learning_rate": 0.0003746151747809769,
      "loss": 0.457,
      "num_input_tokens_seen": 15543064,
      "step": 23760
    },
    {
      "epoch": 12.45545073375262,
      "grad_norm": 0.09407728165388107,
      "learning_rate": 0.000374393809447364,
      "loss": 0.3385,
      "num_input_tokens_seen": 15546968,
      "step": 23765
    },
    {
      "epoch": 12.458071278825996,
      "grad_norm": 0.10593906044960022,
      "learning_rate": 0.0003741724703891333,
      "loss": 0.6969,
      "num_input_tokens_seen": 15550040,
      "step": 23770
    },
    {
      "epoch": 12.46069182389937,
      "grad_norm": 0.20796826481819153,
      "learning_rate": 0.00037395115765258616,
      "loss": 0.3902,
      "num_input_tokens_seen": 15552824,
      "step": 23775
    },
    {
      "epoch": 12.463312368972746,
      "grad_norm": 0.17150729894638062,
      "learning_rate": 0.0003737298712840188,
      "loss": 0.4081,
      "num_input_tokens_seen": 15555448,
      "step": 23780
    },
    {
      "epoch": 12.465932914046121,
      "grad_norm": 0.09559299796819687,
      "learning_rate": 0.000373508611329722,
      "loss": 0.4722,
      "num_input_tokens_seen": 15559096,
      "step": 23785
    },
    {
      "epoch": 12.468553459119496,
      "grad_norm": 0.11551842093467712,
      "learning_rate": 0.00037328737783598036,
      "loss": 0.6364,
      "num_input_tokens_seen": 15562136,
      "step": 23790
    },
    {
      "epoch": 12.471174004192871,
      "grad_norm": 0.11482464522123337,
      "learning_rate": 0.0003730661708490738,
      "loss": 0.3561,
      "num_input_tokens_seen": 15565528,
      "step": 23795
    },
    {
      "epoch": 12.473794549266247,
      "grad_norm": 0.19284981489181519,
      "learning_rate": 0.0003728449904152761,
      "loss": 0.5873,
      "num_input_tokens_seen": 15569048,
      "step": 23800
    },
    {
      "epoch": 12.476415094339623,
      "grad_norm": 0.0972941666841507,
      "learning_rate": 0.00037262383658085563,
      "loss": 0.4433,
      "num_input_tokens_seen": 15572088,
      "step": 23805
    },
    {
      "epoch": 12.479035639412999,
      "grad_norm": 0.13708794116973877,
      "learning_rate": 0.00037240270939207555,
      "loss": 0.3975,
      "num_input_tokens_seen": 15574488,
      "step": 23810
    },
    {
      "epoch": 12.481656184486374,
      "grad_norm": 0.1384762078523636,
      "learning_rate": 0.000372181608895193,
      "loss": 0.3541,
      "num_input_tokens_seen": 15577176,
      "step": 23815
    },
    {
      "epoch": 12.484276729559749,
      "grad_norm": 0.1499434858560562,
      "learning_rate": 0.00037196053513645957,
      "loss": 0.4083,
      "num_input_tokens_seen": 15582168,
      "step": 23820
    },
    {
      "epoch": 12.486897274633124,
      "grad_norm": 0.09018031507730484,
      "learning_rate": 0.00037173948816212146,
      "loss": 0.4852,
      "num_input_tokens_seen": 15585880,
      "step": 23825
    },
    {
      "epoch": 12.4895178197065,
      "grad_norm": 0.15830665826797485,
      "learning_rate": 0.00037151846801841904,
      "loss": 0.493,
      "num_input_tokens_seen": 15588920,
      "step": 23830
    },
    {
      "epoch": 12.492138364779874,
      "grad_norm": 0.06609164923429489,
      "learning_rate": 0.00037129747475158736,
      "loss": 0.4374,
      "num_input_tokens_seen": 15592312,
      "step": 23835
    },
    {
      "epoch": 12.49475890985325,
      "grad_norm": 0.10285963863134384,
      "learning_rate": 0.0003710765084078558,
      "loss": 0.5088,
      "num_input_tokens_seen": 15595512,
      "step": 23840
    },
    {
      "epoch": 12.497379454926625,
      "grad_norm": 0.1759251058101654,
      "learning_rate": 0.0003708555690334477,
      "loss": 0.3922,
      "num_input_tokens_seen": 15598040,
      "step": 23845
    },
    {
      "epoch": 12.5,
      "grad_norm": 0.1391812562942505,
      "learning_rate": 0.00037063465667458125,
      "loss": 0.3202,
      "num_input_tokens_seen": 15600344,
      "step": 23850
    },
    {
      "epoch": 12.502620545073375,
      "grad_norm": 0.12277890741825104,
      "learning_rate": 0.0003704137713774686,
      "loss": 0.5404,
      "num_input_tokens_seen": 15603960,
      "step": 23855
    },
    {
      "epoch": 12.50524109014675,
      "grad_norm": 0.09230171889066696,
      "learning_rate": 0.0003701929131883167,
      "loss": 0.3631,
      "num_input_tokens_seen": 15606328,
      "step": 23860
    },
    {
      "epoch": 12.507861635220126,
      "grad_norm": 0.12972979247570038,
      "learning_rate": 0.0003699720821533264,
      "loss": 0.3941,
      "num_input_tokens_seen": 15608760,
      "step": 23865
    },
    {
      "epoch": 12.5104821802935,
      "grad_norm": 0.13812212646007538,
      "learning_rate": 0.00036975127831869326,
      "loss": 0.4517,
      "num_input_tokens_seen": 15612088,
      "step": 23870
    },
    {
      "epoch": 12.513102725366876,
      "grad_norm": 0.17321470379829407,
      "learning_rate": 0.0003695305017306066,
      "loss": 0.5443,
      "num_input_tokens_seen": 15615640,
      "step": 23875
    },
    {
      "epoch": 12.515723270440251,
      "grad_norm": 0.06093957647681236,
      "learning_rate": 0.00036930975243525046,
      "loss": 0.3577,
      "num_input_tokens_seen": 15619000,
      "step": 23880
    },
    {
      "epoch": 12.518343815513626,
      "grad_norm": 0.19132640957832336,
      "learning_rate": 0.00036908903047880304,
      "loss": 0.5022,
      "num_input_tokens_seen": 15621720,
      "step": 23885
    },
    {
      "epoch": 12.520964360587001,
      "grad_norm": 0.10399962961673737,
      "learning_rate": 0.00036886833590743707,
      "loss": 0.334,
      "num_input_tokens_seen": 15624920,
      "step": 23890
    },
    {
      "epoch": 12.523584905660378,
      "grad_norm": 0.10981936752796173,
      "learning_rate": 0.00036864766876731913,
      "loss": 0.4645,
      "num_input_tokens_seen": 15628056,
      "step": 23895
    },
    {
      "epoch": 12.526205450733752,
      "grad_norm": 0.11291427910327911,
      "learning_rate": 0.00036842702910461054,
      "loss": 0.4094,
      "num_input_tokens_seen": 15630936,
      "step": 23900
    },
    {
      "epoch": 12.528825995807129,
      "grad_norm": 0.1698773354291916,
      "learning_rate": 0.0003682064169654663,
      "loss": 0.433,
      "num_input_tokens_seen": 15633816,
      "step": 23905
    },
    {
      "epoch": 12.531446540880504,
      "grad_norm": 0.12611347436904907,
      "learning_rate": 0.00036798583239603587,
      "loss": 0.2887,
      "num_input_tokens_seen": 15636312,
      "step": 23910
    },
    {
      "epoch": 12.534067085953879,
      "grad_norm": 0.15689189732074738,
      "learning_rate": 0.0003677652754424634,
      "loss": 0.4881,
      "num_input_tokens_seen": 15638616,
      "step": 23915
    },
    {
      "epoch": 12.536687631027254,
      "grad_norm": 0.12791207432746887,
      "learning_rate": 0.0003675447461508865,
      "loss": 0.4887,
      "num_input_tokens_seen": 15642488,
      "step": 23920
    },
    {
      "epoch": 12.53930817610063,
      "grad_norm": 0.11404336243867874,
      "learning_rate": 0.00036732424456743784,
      "loss": 0.3712,
      "num_input_tokens_seen": 15645304,
      "step": 23925
    },
    {
      "epoch": 12.541928721174004,
      "grad_norm": 0.08042794466018677,
      "learning_rate": 0.0003671037707382435,
      "loss": 0.5248,
      "num_input_tokens_seen": 15649208,
      "step": 23930
    },
    {
      "epoch": 12.54454926624738,
      "grad_norm": 0.2714744210243225,
      "learning_rate": 0.000366883324709424,
      "loss": 0.4651,
      "num_input_tokens_seen": 15652120,
      "step": 23935
    },
    {
      "epoch": 12.547169811320755,
      "grad_norm": 0.2837401032447815,
      "learning_rate": 0.00036666290652709446,
      "loss": 0.6416,
      "num_input_tokens_seen": 15654968,
      "step": 23940
    },
    {
      "epoch": 12.54979035639413,
      "grad_norm": 0.14685018360614777,
      "learning_rate": 0.0003664425162373635,
      "loss": 0.4373,
      "num_input_tokens_seen": 15658456,
      "step": 23945
    },
    {
      "epoch": 12.552410901467505,
      "grad_norm": 0.2207697182893753,
      "learning_rate": 0.0003662221538863346,
      "loss": 0.6014,
      "num_input_tokens_seen": 15661816,
      "step": 23950
    },
    {
      "epoch": 12.55503144654088,
      "grad_norm": 0.13645587861537933,
      "learning_rate": 0.0003660018195201049,
      "loss": 0.4735,
      "num_input_tokens_seen": 15664664,
      "step": 23955
    },
    {
      "epoch": 12.557651991614255,
      "grad_norm": 0.15889231860637665,
      "learning_rate": 0.0003657815131847657,
      "loss": 0.465,
      "num_input_tokens_seen": 15667448,
      "step": 23960
    },
    {
      "epoch": 12.56027253668763,
      "grad_norm": 0.12491509318351746,
      "learning_rate": 0.0003655612349264027,
      "loss": 0.453,
      "num_input_tokens_seen": 15671512,
      "step": 23965
    },
    {
      "epoch": 12.562893081761006,
      "grad_norm": 0.11663702130317688,
      "learning_rate": 0.0003653409847910957,
      "loss": 0.3616,
      "num_input_tokens_seen": 15675832,
      "step": 23970
    },
    {
      "epoch": 12.565513626834381,
      "grad_norm": 0.1378985345363617,
      "learning_rate": 0.0003651207628249182,
      "loss": 0.3512,
      "num_input_tokens_seen": 15679096,
      "step": 23975
    },
    {
      "epoch": 12.568134171907756,
      "grad_norm": 0.20292070508003235,
      "learning_rate": 0.0003649005690739386,
      "loss": 0.3832,
      "num_input_tokens_seen": 15682200,
      "step": 23980
    },
    {
      "epoch": 12.570754716981131,
      "grad_norm": 0.16611698269844055,
      "learning_rate": 0.0003646804035842187,
      "loss": 0.4572,
      "num_input_tokens_seen": 15684952,
      "step": 23985
    },
    {
      "epoch": 12.573375262054507,
      "grad_norm": 0.12548363208770752,
      "learning_rate": 0.0003644602664018143,
      "loss": 0.3448,
      "num_input_tokens_seen": 15687896,
      "step": 23990
    },
    {
      "epoch": 12.575995807127882,
      "grad_norm": 0.1443425863981247,
      "learning_rate": 0.000364240157572776,
      "loss": 0.5625,
      "num_input_tokens_seen": 15690552,
      "step": 23995
    },
    {
      "epoch": 12.578616352201259,
      "grad_norm": 0.21462245285511017,
      "learning_rate": 0.0003640200771431478,
      "loss": 0.362,
      "num_input_tokens_seen": 15693528,
      "step": 24000
    },
    {
      "epoch": 12.581236897274634,
      "grad_norm": 0.10333215445280075,
      "learning_rate": 0.0003638000251589683,
      "loss": 0.3228,
      "num_input_tokens_seen": 15697464,
      "step": 24005
    },
    {
      "epoch": 12.583857442348009,
      "grad_norm": 0.11357399821281433,
      "learning_rate": 0.0003635800016662696,
      "loss": 0.4176,
      "num_input_tokens_seen": 15700792,
      "step": 24010
    },
    {
      "epoch": 12.586477987421384,
      "grad_norm": 0.167704775929451,
      "learning_rate": 0.00036336000671107816,
      "loss": 0.526,
      "num_input_tokens_seen": 15704600,
      "step": 24015
    },
    {
      "epoch": 12.58909853249476,
      "grad_norm": 0.12853139638900757,
      "learning_rate": 0.00036314004033941445,
      "loss": 0.4613,
      "num_input_tokens_seen": 15707800,
      "step": 24020
    },
    {
      "epoch": 12.591719077568134,
      "grad_norm": 0.09584976732730865,
      "learning_rate": 0.00036292010259729283,
      "loss": 0.4103,
      "num_input_tokens_seen": 15710616,
      "step": 24025
    },
    {
      "epoch": 12.59433962264151,
      "grad_norm": 0.08310098201036453,
      "learning_rate": 0.000362700193530722,
      "loss": 0.3668,
      "num_input_tokens_seen": 15714264,
      "step": 24030
    },
    {
      "epoch": 12.596960167714885,
      "grad_norm": 0.10580013692378998,
      "learning_rate": 0.0003624803131857042,
      "loss": 0.3788,
      "num_input_tokens_seen": 15717400,
      "step": 24035
    },
    {
      "epoch": 12.59958071278826,
      "grad_norm": 0.1726309210062027,
      "learning_rate": 0.0003622604616082361,
      "loss": 0.4536,
      "num_input_tokens_seen": 15719864,
      "step": 24040
    },
    {
      "epoch": 12.602201257861635,
      "grad_norm": 0.07976923137903214,
      "learning_rate": 0.0003620406388443078,
      "loss": 0.5067,
      "num_input_tokens_seen": 15724088,
      "step": 24045
    },
    {
      "epoch": 12.60482180293501,
      "grad_norm": 0.1386798471212387,
      "learning_rate": 0.00036182084493990407,
      "loss": 0.4489,
      "num_input_tokens_seen": 15727128,
      "step": 24050
    },
    {
      "epoch": 12.607442348008385,
      "grad_norm": 0.12261638045310974,
      "learning_rate": 0.0003616010799410031,
      "loss": 0.593,
      "num_input_tokens_seen": 15729688,
      "step": 24055
    },
    {
      "epoch": 12.61006289308176,
      "grad_norm": 0.1504048854112625,
      "learning_rate": 0.0003613813438935773,
      "loss": 0.4388,
      "num_input_tokens_seen": 15732696,
      "step": 24060
    },
    {
      "epoch": 12.612683438155136,
      "grad_norm": 0.0796670913696289,
      "learning_rate": 0.0003611616368435928,
      "loss": 0.4376,
      "num_input_tokens_seen": 15735608,
      "step": 24065
    },
    {
      "epoch": 12.615303983228511,
      "grad_norm": 0.08173085749149323,
      "learning_rate": 0.0003609419588370102,
      "loss": 0.4277,
      "num_input_tokens_seen": 15739256,
      "step": 24070
    },
    {
      "epoch": 12.617924528301886,
      "grad_norm": 0.11588931828737259,
      "learning_rate": 0.00036072230991978326,
      "loss": 0.3677,
      "num_input_tokens_seen": 15741944,
      "step": 24075
    },
    {
      "epoch": 12.620545073375261,
      "grad_norm": 0.0935245007276535,
      "learning_rate": 0.00036050269013785996,
      "loss": 0.4571,
      "num_input_tokens_seen": 15744888,
      "step": 24080
    },
    {
      "epoch": 12.623165618448636,
      "grad_norm": 0.18224619328975677,
      "learning_rate": 0.0003602830995371825,
      "loss": 0.4134,
      "num_input_tokens_seen": 15747736,
      "step": 24085
    },
    {
      "epoch": 12.625786163522012,
      "grad_norm": 0.1301603764295578,
      "learning_rate": 0.0003600635381636866,
      "loss": 0.4414,
      "num_input_tokens_seen": 15750616,
      "step": 24090
    },
    {
      "epoch": 12.628406708595389,
      "grad_norm": 0.11002159863710403,
      "learning_rate": 0.0003598440060633022,
      "loss": 0.3331,
      "num_input_tokens_seen": 15754488,
      "step": 24095
    },
    {
      "epoch": 12.631027253668764,
      "grad_norm": 0.1552773267030716,
      "learning_rate": 0.00035962450328195264,
      "loss": 0.412,
      "num_input_tokens_seen": 15757432,
      "step": 24100
    },
    {
      "epoch": 12.633647798742139,
      "grad_norm": 0.13449570536613464,
      "learning_rate": 0.00035940502986555543,
      "loss": 0.4082,
      "num_input_tokens_seen": 15761208,
      "step": 24105
    },
    {
      "epoch": 12.636268343815514,
      "grad_norm": 0.11085664480924606,
      "learning_rate": 0.00035918558586002205,
      "loss": 0.3711,
      "num_input_tokens_seen": 15764152,
      "step": 24110
    },
    {
      "epoch": 12.63888888888889,
      "grad_norm": 0.1137956902384758,
      "learning_rate": 0.0003589661713112575,
      "loss": 0.5651,
      "num_input_tokens_seen": 15767064,
      "step": 24115
    },
    {
      "epoch": 12.641509433962264,
      "grad_norm": 0.028364555910229683,
      "learning_rate": 0.000358746786265161,
      "loss": 0.3908,
      "num_input_tokens_seen": 15773560,
      "step": 24120
    },
    {
      "epoch": 12.64412997903564,
      "grad_norm": 0.12555694580078125,
      "learning_rate": 0.0003585274307676254,
      "loss": 0.388,
      "num_input_tokens_seen": 15777784,
      "step": 24125
    },
    {
      "epoch": 12.646750524109015,
      "grad_norm": 0.13152675330638885,
      "learning_rate": 0.00035830810486453725,
      "loss": 0.4321,
      "num_input_tokens_seen": 15780760,
      "step": 24130
    },
    {
      "epoch": 12.64937106918239,
      "grad_norm": 0.12598569691181183,
      "learning_rate": 0.00035808880860177696,
      "loss": 0.4459,
      "num_input_tokens_seen": 15784312,
      "step": 24135
    },
    {
      "epoch": 12.651991614255765,
      "grad_norm": 0.14242273569107056,
      "learning_rate": 0.00035786954202521895,
      "loss": 0.3829,
      "num_input_tokens_seen": 15787000,
      "step": 24140
    },
    {
      "epoch": 12.65461215932914,
      "grad_norm": 0.0988752692937851,
      "learning_rate": 0.00035765030518073116,
      "loss": 0.4718,
      "num_input_tokens_seen": 15790104,
      "step": 24145
    },
    {
      "epoch": 12.657232704402515,
      "grad_norm": 0.10203864425420761,
      "learning_rate": 0.0003574310981141756,
      "loss": 0.4465,
      "num_input_tokens_seen": 15793528,
      "step": 24150
    },
    {
      "epoch": 12.65985324947589,
      "grad_norm": 0.17055942118167877,
      "learning_rate": 0.00035721192087140796,
      "loss": 0.4733,
      "num_input_tokens_seen": 15795992,
      "step": 24155
    },
    {
      "epoch": 12.662473794549266,
      "grad_norm": 0.22281593084335327,
      "learning_rate": 0.00035699277349827724,
      "loss": 0.4042,
      "num_input_tokens_seen": 15798744,
      "step": 24160
    },
    {
      "epoch": 12.665094339622641,
      "grad_norm": 0.1186831071972847,
      "learning_rate": 0.0003567736560406269,
      "loss": 0.4611,
      "num_input_tokens_seen": 15801208,
      "step": 24165
    },
    {
      "epoch": 12.667714884696016,
      "grad_norm": 0.0673636645078659,
      "learning_rate": 0.0003565545685442936,
      "loss": 0.445,
      "num_input_tokens_seen": 15805176,
      "step": 24170
    },
    {
      "epoch": 12.670335429769391,
      "grad_norm": 0.3374817669391632,
      "learning_rate": 0.00035633551105510806,
      "loss": 0.3971,
      "num_input_tokens_seen": 15807704,
      "step": 24175
    },
    {
      "epoch": 12.672955974842766,
      "grad_norm": 0.12579840421676636,
      "learning_rate": 0.00035611648361889457,
      "loss": 0.3921,
      "num_input_tokens_seen": 15810680,
      "step": 24180
    },
    {
      "epoch": 12.675576519916142,
      "grad_norm": 0.1667999029159546,
      "learning_rate": 0.00035589748628147145,
      "loss": 0.4331,
      "num_input_tokens_seen": 15813688,
      "step": 24185
    },
    {
      "epoch": 12.678197064989519,
      "grad_norm": 0.08697891235351562,
      "learning_rate": 0.00035567851908865,
      "loss": 0.3731,
      "num_input_tokens_seen": 15817752,
      "step": 24190
    },
    {
      "epoch": 12.680817610062894,
      "grad_norm": 0.18136849999427795,
      "learning_rate": 0.0003554595820862358,
      "loss": 0.6003,
      "num_input_tokens_seen": 15820024,
      "step": 24195
    },
    {
      "epoch": 12.683438155136269,
      "grad_norm": 0.08099837601184845,
      "learning_rate": 0.00035524067532002803,
      "loss": 0.3596,
      "num_input_tokens_seen": 15825368,
      "step": 24200
    },
    {
      "epoch": 12.686058700209644,
      "grad_norm": 0.06848427653312683,
      "learning_rate": 0.00035502179883581956,
      "loss": 0.4294,
      "num_input_tokens_seen": 15829144,
      "step": 24205
    },
    {
      "epoch": 12.68867924528302,
      "grad_norm": 0.19835132360458374,
      "learning_rate": 0.0003548029526793969,
      "loss": 0.4417,
      "num_input_tokens_seen": 15832248,
      "step": 24210
    },
    {
      "epoch": 12.691299790356394,
      "grad_norm": 0.1129205971956253,
      "learning_rate": 0.0003545841368965398,
      "loss": 0.4227,
      "num_input_tokens_seen": 15834840,
      "step": 24215
    },
    {
      "epoch": 12.69392033542977,
      "grad_norm": 0.09957709163427353,
      "learning_rate": 0.00035436535153302235,
      "loss": 0.3533,
      "num_input_tokens_seen": 15837464,
      "step": 24220
    },
    {
      "epoch": 12.696540880503145,
      "grad_norm": 0.12103396654129028,
      "learning_rate": 0.0003541465966346118,
      "loss": 0.3776,
      "num_input_tokens_seen": 15841752,
      "step": 24225
    },
    {
      "epoch": 12.69916142557652,
      "grad_norm": 0.11252542585134506,
      "learning_rate": 0.00035392787224706936,
      "loss": 0.4136,
      "num_input_tokens_seen": 15844600,
      "step": 24230
    },
    {
      "epoch": 12.701781970649895,
      "grad_norm": 0.1252211183309555,
      "learning_rate": 0.0003537091784161495,
      "loss": 0.3696,
      "num_input_tokens_seen": 15847640,
      "step": 24235
    },
    {
      "epoch": 12.70440251572327,
      "grad_norm": 0.1544189453125,
      "learning_rate": 0.0003534905151876007,
      "loss": 0.4806,
      "num_input_tokens_seen": 15850904,
      "step": 24240
    },
    {
      "epoch": 12.707023060796645,
      "grad_norm": 0.17750906944274902,
      "learning_rate": 0.0003532718826071646,
      "loss": 0.4887,
      "num_input_tokens_seen": 15853880,
      "step": 24245
    },
    {
      "epoch": 12.70964360587002,
      "grad_norm": 0.07452113181352615,
      "learning_rate": 0.00035305328072057654,
      "loss": 0.4462,
      "num_input_tokens_seen": 15857016,
      "step": 24250
    },
    {
      "epoch": 12.712264150943396,
      "grad_norm": 0.1343979835510254,
      "learning_rate": 0.00035283470957356576,
      "loss": 0.5029,
      "num_input_tokens_seen": 15860888,
      "step": 24255
    },
    {
      "epoch": 12.714884696016771,
      "grad_norm": 0.17461925745010376,
      "learning_rate": 0.0003526161692118548,
      "loss": 0.4427,
      "num_input_tokens_seen": 15863320,
      "step": 24260
    },
    {
      "epoch": 12.717505241090146,
      "grad_norm": 0.10874887555837631,
      "learning_rate": 0.0003523976596811597,
      "loss": 0.443,
      "num_input_tokens_seen": 15867032,
      "step": 24265
    },
    {
      "epoch": 12.720125786163521,
      "grad_norm": 0.1397283673286438,
      "learning_rate": 0.0003521791810271906,
      "loss": 0.3275,
      "num_input_tokens_seen": 15870552,
      "step": 24270
    },
    {
      "epoch": 12.722746331236896,
      "grad_norm": 0.1576198786497116,
      "learning_rate": 0.0003519607332956501,
      "loss": 0.4514,
      "num_input_tokens_seen": 15873976,
      "step": 24275
    },
    {
      "epoch": 12.725366876310272,
      "grad_norm": 0.2993607223033905,
      "learning_rate": 0.0003517423165322353,
      "loss": 0.5688,
      "num_input_tokens_seen": 15876664,
      "step": 24280
    },
    {
      "epoch": 12.727987421383649,
      "grad_norm": 0.25054022669792175,
      "learning_rate": 0.0003515239307826366,
      "loss": 0.5416,
      "num_input_tokens_seen": 15879736,
      "step": 24285
    },
    {
      "epoch": 12.730607966457024,
      "grad_norm": 0.174746572971344,
      "learning_rate": 0.00035130557609253744,
      "loss": 0.4466,
      "num_input_tokens_seen": 15883192,
      "step": 24290
    },
    {
      "epoch": 12.733228511530399,
      "grad_norm": 0.16026553511619568,
      "learning_rate": 0.00035108725250761566,
      "loss": 0.5021,
      "num_input_tokens_seen": 15886520,
      "step": 24295
    },
    {
      "epoch": 12.735849056603774,
      "grad_norm": 0.16685009002685547,
      "learning_rate": 0.0003508689600735416,
      "loss": 0.4957,
      "num_input_tokens_seen": 15890584,
      "step": 24300
    },
    {
      "epoch": 12.73846960167715,
      "grad_norm": 0.12587937712669373,
      "learning_rate": 0.0003506506988359797,
      "loss": 0.3837,
      "num_input_tokens_seen": 15894776,
      "step": 24305
    },
    {
      "epoch": 12.741090146750524,
      "grad_norm": 0.0459776371717453,
      "learning_rate": 0.0003504324688405878,
      "loss": 0.5481,
      "num_input_tokens_seen": 15903000,
      "step": 24310
    },
    {
      "epoch": 12.7437106918239,
      "grad_norm": 0.14707697927951813,
      "learning_rate": 0.000350214270133017,
      "loss": 0.4124,
      "num_input_tokens_seen": 15905624,
      "step": 24315
    },
    {
      "epoch": 12.746331236897275,
      "grad_norm": 0.09843996912240982,
      "learning_rate": 0.00034999610275891204,
      "loss": 0.4495,
      "num_input_tokens_seen": 15909336,
      "step": 24320
    },
    {
      "epoch": 12.74895178197065,
      "grad_norm": 0.06835214048624039,
      "learning_rate": 0.0003497779667639113,
      "loss": 0.4544,
      "num_input_tokens_seen": 15912664,
      "step": 24325
    },
    {
      "epoch": 12.751572327044025,
      "grad_norm": 0.12292202562093735,
      "learning_rate": 0.0003495598621936458,
      "loss": 0.4489,
      "num_input_tokens_seen": 15915928,
      "step": 24330
    },
    {
      "epoch": 12.7541928721174,
      "grad_norm": 0.07149498164653778,
      "learning_rate": 0.00034934178909374084,
      "loss": 0.4586,
      "num_input_tokens_seen": 15918264,
      "step": 24335
    },
    {
      "epoch": 12.756813417190775,
      "grad_norm": 0.1792650818824768,
      "learning_rate": 0.0003491237475098148,
      "loss": 0.4742,
      "num_input_tokens_seen": 15921112,
      "step": 24340
    },
    {
      "epoch": 12.75943396226415,
      "grad_norm": 0.1789896935224533,
      "learning_rate": 0.00034890573748747945,
      "loss": 0.4627,
      "num_input_tokens_seen": 15923512,
      "step": 24345
    },
    {
      "epoch": 12.762054507337526,
      "grad_norm": 0.11584587395191193,
      "learning_rate": 0.00034868775907234017,
      "loss": 0.509,
      "num_input_tokens_seen": 15926296,
      "step": 24350
    },
    {
      "epoch": 12.764675052410901,
      "grad_norm": 0.12705852091312408,
      "learning_rate": 0.0003484698123099956,
      "loss": 0.3942,
      "num_input_tokens_seen": 15930520,
      "step": 24355
    },
    {
      "epoch": 12.767295597484276,
      "grad_norm": 0.1428135335445404,
      "learning_rate": 0.00034825189724603723,
      "loss": 0.4009,
      "num_input_tokens_seen": 15933592,
      "step": 24360
    },
    {
      "epoch": 12.769916142557651,
      "grad_norm": 0.08581924438476562,
      "learning_rate": 0.0003480340139260509,
      "loss": 0.2997,
      "num_input_tokens_seen": 15937016,
      "step": 24365
    },
    {
      "epoch": 12.772536687631026,
      "grad_norm": 0.11161761730909348,
      "learning_rate": 0.000347816162395615,
      "loss": 0.627,
      "num_input_tokens_seen": 15940280,
      "step": 24370
    },
    {
      "epoch": 12.775157232704402,
      "grad_norm": 0.17978233098983765,
      "learning_rate": 0.00034759834270030185,
      "loss": 0.4969,
      "num_input_tokens_seen": 15943864,
      "step": 24375
    },
    {
      "epoch": 12.777777777777779,
      "grad_norm": 0.2469683438539505,
      "learning_rate": 0.0003473805548856768,
      "loss": 0.5816,
      "num_input_tokens_seen": 15946904,
      "step": 24380
    },
    {
      "epoch": 12.780398322851154,
      "grad_norm": 0.15036095678806305,
      "learning_rate": 0.00034716279899729826,
      "loss": 0.4893,
      "num_input_tokens_seen": 15949688,
      "step": 24385
    },
    {
      "epoch": 12.783018867924529,
      "grad_norm": 0.20061807334423065,
      "learning_rate": 0.00034694507508071864,
      "loss": 0.3626,
      "num_input_tokens_seen": 15953016,
      "step": 24390
    },
    {
      "epoch": 12.785639412997904,
      "grad_norm": 0.139206200838089,
      "learning_rate": 0.00034672738318148303,
      "loss": 0.4572,
      "num_input_tokens_seen": 15955608,
      "step": 24395
    },
    {
      "epoch": 12.78825995807128,
      "grad_norm": 0.11793046444654465,
      "learning_rate": 0.00034650972334513043,
      "loss": 0.5099,
      "num_input_tokens_seen": 15959608,
      "step": 24400
    },
    {
      "epoch": 12.790880503144654,
      "grad_norm": 0.13478244841098785,
      "learning_rate": 0.00034629209561719244,
      "loss": 0.4333,
      "num_input_tokens_seen": 15963000,
      "step": 24405
    },
    {
      "epoch": 12.79350104821803,
      "grad_norm": 0.16972380876541138,
      "learning_rate": 0.0003460745000431946,
      "loss": 0.5229,
      "num_input_tokens_seen": 15967928,
      "step": 24410
    },
    {
      "epoch": 12.796121593291405,
      "grad_norm": 0.1245596632361412,
      "learning_rate": 0.00034585693666865525,
      "loss": 0.3036,
      "num_input_tokens_seen": 15971416,
      "step": 24415
    },
    {
      "epoch": 12.79874213836478,
      "grad_norm": 0.14736808836460114,
      "learning_rate": 0.00034563940553908605,
      "loss": 0.4803,
      "num_input_tokens_seen": 15974104,
      "step": 24420
    },
    {
      "epoch": 12.801362683438155,
      "grad_norm": 0.09832014888525009,
      "learning_rate": 0.00034542190669999216,
      "loss": 0.4021,
      "num_input_tokens_seen": 15978200,
      "step": 24425
    },
    {
      "epoch": 12.80398322851153,
      "grad_norm": 0.10511989891529083,
      "learning_rate": 0.000345204440196872,
      "loss": 0.3765,
      "num_input_tokens_seen": 15981624,
      "step": 24430
    },
    {
      "epoch": 12.806603773584905,
      "grad_norm": 0.1396503895521164,
      "learning_rate": 0.00034498700607521693,
      "loss": 0.4787,
      "num_input_tokens_seen": 15985016,
      "step": 24435
    },
    {
      "epoch": 12.80922431865828,
      "grad_norm": 0.10587740689516068,
      "learning_rate": 0.00034476960438051187,
      "loss": 0.6199,
      "num_input_tokens_seen": 15988856,
      "step": 24440
    },
    {
      "epoch": 12.811844863731656,
      "grad_norm": 0.08497605472803116,
      "learning_rate": 0.00034455223515823444,
      "loss": 0.4833,
      "num_input_tokens_seen": 15992568,
      "step": 24445
    },
    {
      "epoch": 12.814465408805031,
      "grad_norm": 0.15997818112373352,
      "learning_rate": 0.0003443348984538559,
      "loss": 0.325,
      "num_input_tokens_seen": 15996216,
      "step": 24450
    },
    {
      "epoch": 12.817085953878406,
      "grad_norm": 0.24132607877254486,
      "learning_rate": 0.0003441175943128407,
      "loss": 0.511,
      "num_input_tokens_seen": 15999224,
      "step": 24455
    },
    {
      "epoch": 12.819706498951781,
      "grad_norm": 0.10742342472076416,
      "learning_rate": 0.0003439003227806464,
      "loss": 0.4669,
      "num_input_tokens_seen": 16002456,
      "step": 24460
    },
    {
      "epoch": 12.822327044025156,
      "grad_norm": 0.09779272228479385,
      "learning_rate": 0.00034368308390272386,
      "loss": 0.4139,
      "num_input_tokens_seen": 16005240,
      "step": 24465
    },
    {
      "epoch": 12.824947589098532,
      "grad_norm": 0.08587151020765305,
      "learning_rate": 0.0003434658777245167,
      "loss": 0.3886,
      "num_input_tokens_seen": 16009464,
      "step": 24470
    },
    {
      "epoch": 12.827568134171909,
      "grad_norm": 0.08584130555391312,
      "learning_rate": 0.000343248704291462,
      "loss": 0.4953,
      "num_input_tokens_seen": 16012888,
      "step": 24475
    },
    {
      "epoch": 12.830188679245284,
      "grad_norm": 0.13741351664066315,
      "learning_rate": 0.00034303156364899016,
      "loss": 0.6,
      "num_input_tokens_seen": 16015960,
      "step": 24480
    },
    {
      "epoch": 12.832809224318659,
      "grad_norm": 0.13557010889053345,
      "learning_rate": 0.00034281445584252425,
      "loss": 0.4027,
      "num_input_tokens_seen": 16019704,
      "step": 24485
    },
    {
      "epoch": 12.835429769392034,
      "grad_norm": 0.0979338213801384,
      "learning_rate": 0.00034259738091748103,
      "loss": 0.4601,
      "num_input_tokens_seen": 16022488,
      "step": 24490
    },
    {
      "epoch": 12.83805031446541,
      "grad_norm": 0.09946073591709137,
      "learning_rate": 0.00034238033891927013,
      "loss": 0.2975,
      "num_input_tokens_seen": 16025496,
      "step": 24495
    },
    {
      "epoch": 12.840670859538784,
      "grad_norm": 0.12409476935863495,
      "learning_rate": 0.00034216332989329387,
      "loss": 0.4793,
      "num_input_tokens_seen": 16028152,
      "step": 24500
    },
    {
      "epoch": 12.84329140461216,
      "grad_norm": 0.14469444751739502,
      "learning_rate": 0.00034194635388494835,
      "loss": 0.3327,
      "num_input_tokens_seen": 16031352,
      "step": 24505
    },
    {
      "epoch": 12.845911949685535,
      "grad_norm": 0.20172424614429474,
      "learning_rate": 0.00034172941093962237,
      "loss": 0.4105,
      "num_input_tokens_seen": 16035736,
      "step": 24510
    },
    {
      "epoch": 12.84853249475891,
      "grad_norm": 0.1428852081298828,
      "learning_rate": 0.00034151250110269805,
      "loss": 0.4729,
      "num_input_tokens_seen": 16040536,
      "step": 24515
    },
    {
      "epoch": 12.851153039832285,
      "grad_norm": 0.14437098801136017,
      "learning_rate": 0.00034129562441955044,
      "loss": 0.5286,
      "num_input_tokens_seen": 16043960,
      "step": 24520
    },
    {
      "epoch": 12.85377358490566,
      "grad_norm": 0.1020260751247406,
      "learning_rate": 0.00034107878093554765,
      "loss": 0.4591,
      "num_input_tokens_seen": 16047800,
      "step": 24525
    },
    {
      "epoch": 12.856394129979035,
      "grad_norm": 0.1586022824048996,
      "learning_rate": 0.00034086197069605064,
      "loss": 0.4774,
      "num_input_tokens_seen": 16050360,
      "step": 24530
    },
    {
      "epoch": 12.85901467505241,
      "grad_norm": 0.12228824198246002,
      "learning_rate": 0.0003406451937464139,
      "loss": 0.4541,
      "num_input_tokens_seen": 16053176,
      "step": 24535
    },
    {
      "epoch": 12.861635220125786,
      "grad_norm": 0.12889885902404785,
      "learning_rate": 0.0003404284501319845,
      "loss": 0.3817,
      "num_input_tokens_seen": 16055896,
      "step": 24540
    },
    {
      "epoch": 12.864255765199161,
      "grad_norm": 0.1268225759267807,
      "learning_rate": 0.00034021173989810306,
      "loss": 0.525,
      "num_input_tokens_seen": 16058968,
      "step": 24545
    },
    {
      "epoch": 12.866876310272536,
      "grad_norm": 0.11064818501472473,
      "learning_rate": 0.0003399950630901025,
      "loss": 0.3648,
      "num_input_tokens_seen": 16061912,
      "step": 24550
    },
    {
      "epoch": 12.869496855345911,
      "grad_norm": 0.10175217688083649,
      "learning_rate": 0.0003397784197533095,
      "loss": 0.5101,
      "num_input_tokens_seen": 16064504,
      "step": 24555
    },
    {
      "epoch": 12.872117400419286,
      "grad_norm": 0.13411888480186462,
      "learning_rate": 0.0003395618099330431,
      "loss": 0.4624,
      "num_input_tokens_seen": 16067320,
      "step": 24560
    },
    {
      "epoch": 12.874737945492662,
      "grad_norm": 0.1964753270149231,
      "learning_rate": 0.0003393452336746156,
      "loss": 0.4133,
      "num_input_tokens_seen": 16070968,
      "step": 24565
    },
    {
      "epoch": 12.877358490566039,
      "grad_norm": 0.09751920402050018,
      "learning_rate": 0.00033912869102333237,
      "loss": 0.484,
      "num_input_tokens_seen": 16074040,
      "step": 24570
    },
    {
      "epoch": 12.879979035639414,
      "grad_norm": 0.10687196254730225,
      "learning_rate": 0.00033891218202449164,
      "loss": 0.4366,
      "num_input_tokens_seen": 16076792,
      "step": 24575
    },
    {
      "epoch": 12.882599580712789,
      "grad_norm": 0.14969900250434875,
      "learning_rate": 0.00033869570672338486,
      "loss": 0.42,
      "num_input_tokens_seen": 16080376,
      "step": 24580
    },
    {
      "epoch": 12.885220125786164,
      "grad_norm": 0.07360337674617767,
      "learning_rate": 0.00033847926516529574,
      "loss": 0.3975,
      "num_input_tokens_seen": 16083640,
      "step": 24585
    },
    {
      "epoch": 12.88784067085954,
      "grad_norm": 0.0882764458656311,
      "learning_rate": 0.0003382628573955018,
      "loss": 0.3782,
      "num_input_tokens_seen": 16087064,
      "step": 24590
    },
    {
      "epoch": 12.890461215932914,
      "grad_norm": 0.10357672721147537,
      "learning_rate": 0.00033804648345927267,
      "loss": 0.5908,
      "num_input_tokens_seen": 16090584,
      "step": 24595
    },
    {
      "epoch": 12.89308176100629,
      "grad_norm": 0.10110963881015778,
      "learning_rate": 0.00033783014340187166,
      "loss": 0.5438,
      "num_input_tokens_seen": 16094200,
      "step": 24600
    },
    {
      "epoch": 12.895702306079665,
      "grad_norm": 0.14393433928489685,
      "learning_rate": 0.0003376138372685545,
      "loss": 0.568,
      "num_input_tokens_seen": 16096952,
      "step": 24605
    },
    {
      "epoch": 12.89832285115304,
      "grad_norm": 0.1001373901963234,
      "learning_rate": 0.00033739756510457015,
      "loss": 0.5231,
      "num_input_tokens_seen": 16100024,
      "step": 24610
    },
    {
      "epoch": 12.900943396226415,
      "grad_norm": 0.07048745453357697,
      "learning_rate": 0.00033718132695516003,
      "loss": 0.5197,
      "num_input_tokens_seen": 16104824,
      "step": 24615
    },
    {
      "epoch": 12.90356394129979,
      "grad_norm": 0.19239389896392822,
      "learning_rate": 0.00033696512286555865,
      "loss": 0.3292,
      "num_input_tokens_seen": 16108536,
      "step": 24620
    },
    {
      "epoch": 12.906184486373165,
      "grad_norm": 0.10260815918445587,
      "learning_rate": 0.0003367489528809936,
      "loss": 0.4219,
      "num_input_tokens_seen": 16111864,
      "step": 24625
    },
    {
      "epoch": 12.90880503144654,
      "grad_norm": 0.08130931854248047,
      "learning_rate": 0.00033653281704668515,
      "loss": 0.4658,
      "num_input_tokens_seen": 16115640,
      "step": 24630
    },
    {
      "epoch": 12.911425576519916,
      "grad_norm": 0.09027373790740967,
      "learning_rate": 0.0003363167154078465,
      "loss": 0.4863,
      "num_input_tokens_seen": 16119032,
      "step": 24635
    },
    {
      "epoch": 12.914046121593291,
      "grad_norm": 0.08396340161561966,
      "learning_rate": 0.0003361006480096837,
      "loss": 0.3535,
      "num_input_tokens_seen": 16122200,
      "step": 24640
    },
    {
      "epoch": 12.916666666666666,
      "grad_norm": 0.1638430804014206,
      "learning_rate": 0.0003358846148973953,
      "loss": 0.4667,
      "num_input_tokens_seen": 16125080,
      "step": 24645
    },
    {
      "epoch": 12.919287211740041,
      "grad_norm": 0.14967964589595795,
      "learning_rate": 0.0003356686161161732,
      "loss": 0.4762,
      "num_input_tokens_seen": 16129304,
      "step": 24650
    },
    {
      "epoch": 12.921907756813416,
      "grad_norm": 0.08377231657505035,
      "learning_rate": 0.00033545265171120163,
      "loss": 0.626,
      "num_input_tokens_seen": 16132664,
      "step": 24655
    },
    {
      "epoch": 12.924528301886792,
      "grad_norm": 0.13731250166893005,
      "learning_rate": 0.0003352367217276582,
      "loss": 0.3892,
      "num_input_tokens_seen": 16135608,
      "step": 24660
    },
    {
      "epoch": 12.927148846960169,
      "grad_norm": 0.15004543960094452,
      "learning_rate": 0.0003350208262107131,
      "loss": 0.5228,
      "num_input_tokens_seen": 16138584,
      "step": 24665
    },
    {
      "epoch": 12.929769392033544,
      "grad_norm": 0.19751408696174622,
      "learning_rate": 0.00033480496520552874,
      "loss": 0.452,
      "num_input_tokens_seen": 16141176,
      "step": 24670
    },
    {
      "epoch": 12.932389937106919,
      "grad_norm": 0.13608679175376892,
      "learning_rate": 0.00033458913875726093,
      "loss": 0.3461,
      "num_input_tokens_seen": 16144024,
      "step": 24675
    },
    {
      "epoch": 12.935010482180294,
      "grad_norm": 0.14908157289028168,
      "learning_rate": 0.00033437334691105837,
      "loss": 0.3745,
      "num_input_tokens_seen": 16148120,
      "step": 24680
    },
    {
      "epoch": 12.93763102725367,
      "grad_norm": 0.16341955959796906,
      "learning_rate": 0.0003341575897120619,
      "loss": 0.4458,
      "num_input_tokens_seen": 16151416,
      "step": 24685
    },
    {
      "epoch": 12.940251572327044,
      "grad_norm": 0.15387418866157532,
      "learning_rate": 0.00033394186720540577,
      "loss": 0.6167,
      "num_input_tokens_seen": 16154392,
      "step": 24690
    },
    {
      "epoch": 12.94287211740042,
      "grad_norm": 0.10972633957862854,
      "learning_rate": 0.00033372617943621665,
      "loss": 0.4955,
      "num_input_tokens_seen": 16157048,
      "step": 24695
    },
    {
      "epoch": 12.945492662473795,
      "grad_norm": 0.15984205901622772,
      "learning_rate": 0.00033351052644961353,
      "loss": 0.5969,
      "num_input_tokens_seen": 16160152,
      "step": 24700
    },
    {
      "epoch": 12.94811320754717,
      "grad_norm": 0.12188509106636047,
      "learning_rate": 0.00033329490829070907,
      "loss": 0.4364,
      "num_input_tokens_seen": 16163352,
      "step": 24705
    },
    {
      "epoch": 12.950733752620545,
      "grad_norm": 0.12292375415563583,
      "learning_rate": 0.0003330793250046078,
      "loss": 0.5651,
      "num_input_tokens_seen": 16166488,
      "step": 24710
    },
    {
      "epoch": 12.95335429769392,
      "grad_norm": 0.21100573241710663,
      "learning_rate": 0.0003328637766364075,
      "loss": 0.47,
      "num_input_tokens_seen": 16169560,
      "step": 24715
    },
    {
      "epoch": 12.955974842767295,
      "grad_norm": 0.06517468392848969,
      "learning_rate": 0.00033264826323119824,
      "loss": 0.3283,
      "num_input_tokens_seen": 16172376,
      "step": 24720
    },
    {
      "epoch": 12.95859538784067,
      "grad_norm": 0.10390176624059677,
      "learning_rate": 0.00033243278483406326,
      "loss": 0.4543,
      "num_input_tokens_seen": 16175512,
      "step": 24725
    },
    {
      "epoch": 12.961215932914046,
      "grad_norm": 0.10892216861248016,
      "learning_rate": 0.00033221734149007785,
      "loss": 0.4338,
      "num_input_tokens_seen": 16178744,
      "step": 24730
    },
    {
      "epoch": 12.963836477987421,
      "grad_norm": 0.1551203727722168,
      "learning_rate": 0.0003320019332443104,
      "loss": 0.5328,
      "num_input_tokens_seen": 16182936,
      "step": 24735
    },
    {
      "epoch": 12.966457023060796,
      "grad_norm": 0.16282257437705994,
      "learning_rate": 0.00033178656014182185,
      "loss": 0.4587,
      "num_input_tokens_seen": 16185880,
      "step": 24740
    },
    {
      "epoch": 12.969077568134171,
      "grad_norm": 0.18406984210014343,
      "learning_rate": 0.00033157122222766597,
      "loss": 0.4265,
      "num_input_tokens_seen": 16188792,
      "step": 24745
    },
    {
      "epoch": 12.971698113207546,
      "grad_norm": 0.11729954928159714,
      "learning_rate": 0.0003313559195468889,
      "loss": 0.3494,
      "num_input_tokens_seen": 16191480,
      "step": 24750
    },
    {
      "epoch": 12.974318658280922,
      "grad_norm": 0.153458371758461,
      "learning_rate": 0.0003311406521445293,
      "loss": 0.3299,
      "num_input_tokens_seen": 16193784,
      "step": 24755
    },
    {
      "epoch": 12.976939203354299,
      "grad_norm": 0.09396262466907501,
      "learning_rate": 0.000330925420065619,
      "loss": 0.3671,
      "num_input_tokens_seen": 16196312,
      "step": 24760
    },
    {
      "epoch": 12.979559748427674,
      "grad_norm": 0.12946270406246185,
      "learning_rate": 0.0003307102233551817,
      "loss": 0.4665,
      "num_input_tokens_seen": 16199352,
      "step": 24765
    },
    {
      "epoch": 12.982180293501049,
      "grad_norm": 0.14379550516605377,
      "learning_rate": 0.0003304950620582344,
      "loss": 0.4345,
      "num_input_tokens_seen": 16202872,
      "step": 24770
    },
    {
      "epoch": 12.984800838574424,
      "grad_norm": 0.2632393538951874,
      "learning_rate": 0.0003302799362197864,
      "loss": 0.3646,
      "num_input_tokens_seen": 16205944,
      "step": 24775
    },
    {
      "epoch": 12.9874213836478,
      "grad_norm": 0.07976595312356949,
      "learning_rate": 0.00033006484588483947,
      "loss": 0.4485,
      "num_input_tokens_seen": 16208984,
      "step": 24780
    },
    {
      "epoch": 12.990041928721174,
      "grad_norm": 0.09140503406524658,
      "learning_rate": 0.00032984979109838803,
      "loss": 0.522,
      "num_input_tokens_seen": 16212152,
      "step": 24785
    },
    {
      "epoch": 12.99266247379455,
      "grad_norm": 0.15029045939445496,
      "learning_rate": 0.000329634771905419,
      "loss": 0.3847,
      "num_input_tokens_seen": 16216312,
      "step": 24790
    },
    {
      "epoch": 12.995283018867925,
      "grad_norm": 0.08899620920419693,
      "learning_rate": 0.0003294197883509122,
      "loss": 0.3631,
      "num_input_tokens_seen": 16220120,
      "step": 24795
    },
    {
      "epoch": 12.9979035639413,
      "grad_norm": 0.16851744055747986,
      "learning_rate": 0.00032920484047983947,
      "loss": 0.4087,
      "num_input_tokens_seen": 16223384,
      "step": 24800
    },
    {
      "epoch": 13.0,
      "eval_loss": 0.4503057897090912,
      "eval_runtime": 13.3936,
      "eval_samples_per_second": 63.314,
      "eval_steps_per_second": 15.829,
      "num_input_tokens_seen": 16225896,
      "step": 24804
    },
    {
      "epoch": 13.000524109014675,
      "grad_norm": 0.15088336169719696,
      "learning_rate": 0.0003289899283371657,
      "loss": 0.5454,
      "num_input_tokens_seen": 16226312,
      "step": 24805
    },
    {
      "epoch": 13.00314465408805,
      "grad_norm": 0.1703634113073349,
      "learning_rate": 0.00032877505196784795,
      "loss": 0.4604,
      "num_input_tokens_seen": 16230504,
      "step": 24810
    },
    {
      "epoch": 13.005765199161425,
      "grad_norm": 0.1303125023841858,
      "learning_rate": 0.0003285602114168358,
      "loss": 0.4354,
      "num_input_tokens_seen": 16234088,
      "step": 24815
    },
    {
      "epoch": 13.0083857442348,
      "grad_norm": 0.14815528690814972,
      "learning_rate": 0.00032834540672907144,
      "loss": 0.3223,
      "num_input_tokens_seen": 16237288,
      "step": 24820
    },
    {
      "epoch": 13.011006289308176,
      "grad_norm": 0.1722300797700882,
      "learning_rate": 0.00032813063794948983,
      "loss": 0.3837,
      "num_input_tokens_seen": 16240904,
      "step": 24825
    },
    {
      "epoch": 13.01362683438155,
      "grad_norm": 0.1407046914100647,
      "learning_rate": 0.00032791590512301784,
      "loss": 0.4201,
      "num_input_tokens_seen": 16243752,
      "step": 24830
    },
    {
      "epoch": 13.016247379454926,
      "grad_norm": 0.12331347912549973,
      "learning_rate": 0.00032770120829457534,
      "loss": 0.3533,
      "num_input_tokens_seen": 16247368,
      "step": 24835
    },
    {
      "epoch": 13.018867924528301,
      "grad_norm": 0.18710172176361084,
      "learning_rate": 0.00032748654750907447,
      "loss": 0.4163,
      "num_input_tokens_seen": 16250088,
      "step": 24840
    },
    {
      "epoch": 13.021488469601676,
      "grad_norm": 0.0859065130352974,
      "learning_rate": 0.0003272719228114196,
      "loss": 0.4642,
      "num_input_tokens_seen": 16254024,
      "step": 24845
    },
    {
      "epoch": 13.024109014675052,
      "grad_norm": 0.13229510188102722,
      "learning_rate": 0.0003270573342465079,
      "loss": 0.4835,
      "num_input_tokens_seen": 16256040,
      "step": 24850
    },
    {
      "epoch": 13.026729559748428,
      "grad_norm": 0.13691988587379456,
      "learning_rate": 0.00032684278185922877,
      "loss": 0.4143,
      "num_input_tokens_seen": 16259016,
      "step": 24855
    },
    {
      "epoch": 13.029350104821804,
      "grad_norm": 0.08152554929256439,
      "learning_rate": 0.0003266282656944643,
      "loss": 0.4463,
      "num_input_tokens_seen": 16261576,
      "step": 24860
    },
    {
      "epoch": 13.031970649895179,
      "grad_norm": 0.11025810241699219,
      "learning_rate": 0.0003264137857970888,
      "loss": 0.4164,
      "num_input_tokens_seen": 16265544,
      "step": 24865
    },
    {
      "epoch": 13.034591194968554,
      "grad_norm": 0.11580272018909454,
      "learning_rate": 0.0003261993422119688,
      "loss": 0.38,
      "num_input_tokens_seen": 16267944,
      "step": 24870
    },
    {
      "epoch": 13.03721174004193,
      "grad_norm": 0.17630524933338165,
      "learning_rate": 0.00032598493498396365,
      "loss": 0.5954,
      "num_input_tokens_seen": 16270856,
      "step": 24875
    },
    {
      "epoch": 13.039832285115304,
      "grad_norm": 0.12133660167455673,
      "learning_rate": 0.0003257705641579247,
      "loss": 0.2959,
      "num_input_tokens_seen": 16273480,
      "step": 24880
    },
    {
      "epoch": 13.04245283018868,
      "grad_norm": 0.06595799326896667,
      "learning_rate": 0.00032555622977869614,
      "loss": 0.4203,
      "num_input_tokens_seen": 16276712,
      "step": 24885
    },
    {
      "epoch": 13.045073375262055,
      "grad_norm": 0.09166932851076126,
      "learning_rate": 0.00032534193189111407,
      "loss": 0.428,
      "num_input_tokens_seen": 16279720,
      "step": 24890
    },
    {
      "epoch": 13.04769392033543,
      "grad_norm": 0.15703648328781128,
      "learning_rate": 0.0003251276705400074,
      "loss": 0.3563,
      "num_input_tokens_seen": 16285128,
      "step": 24895
    },
    {
      "epoch": 13.050314465408805,
      "grad_norm": 0.1399589329957962,
      "learning_rate": 0.0003249134457701968,
      "loss": 0.3961,
      "num_input_tokens_seen": 16287880,
      "step": 24900
    },
    {
      "epoch": 13.05293501048218,
      "grad_norm": 0.12014365941286087,
      "learning_rate": 0.000324699257626496,
      "loss": 0.4486,
      "num_input_tokens_seen": 16290856,
      "step": 24905
    },
    {
      "epoch": 13.055555555555555,
      "grad_norm": 0.12895363569259644,
      "learning_rate": 0.00032448510615371045,
      "loss": 0.41,
      "num_input_tokens_seen": 16293800,
      "step": 24910
    },
    {
      "epoch": 13.05817610062893,
      "grad_norm": 0.13541889190673828,
      "learning_rate": 0.0003242709913966384,
      "loss": 0.4595,
      "num_input_tokens_seen": 16296680,
      "step": 24915
    },
    {
      "epoch": 13.060796645702306,
      "grad_norm": 0.11235561221837997,
      "learning_rate": 0.00032405691340007,
      "loss": 0.4356,
      "num_input_tokens_seen": 16299432,
      "step": 24920
    },
    {
      "epoch": 13.06341719077568,
      "grad_norm": 0.10922086983919144,
      "learning_rate": 0.0003238428722087884,
      "loss": 0.4814,
      "num_input_tokens_seen": 16302984,
      "step": 24925
    },
    {
      "epoch": 13.066037735849056,
      "grad_norm": 0.08283501118421555,
      "learning_rate": 0.00032362886786756797,
      "loss": 0.3791,
      "num_input_tokens_seen": 16306280,
      "step": 24930
    },
    {
      "epoch": 13.068658280922431,
      "grad_norm": 0.09883366525173187,
      "learning_rate": 0.00032341490042117615,
      "loss": 0.3748,
      "num_input_tokens_seen": 16309736,
      "step": 24935
    },
    {
      "epoch": 13.071278825995806,
      "grad_norm": 0.10155224800109863,
      "learning_rate": 0.00032320096991437277,
      "loss": 0.3109,
      "num_input_tokens_seen": 16313288,
      "step": 24940
    },
    {
      "epoch": 13.073899371069182,
      "grad_norm": 0.11687297374010086,
      "learning_rate": 0.0003229870763919093,
      "loss": 0.4257,
      "num_input_tokens_seen": 16315816,
      "step": 24945
    },
    {
      "epoch": 13.076519916142558,
      "grad_norm": 0.20266924798488617,
      "learning_rate": 0.00032277321989853015,
      "loss": 0.3807,
      "num_input_tokens_seen": 16319144,
      "step": 24950
    },
    {
      "epoch": 13.079140461215934,
      "grad_norm": 0.06222602725028992,
      "learning_rate": 0.00032255940047897137,
      "loss": 0.4838,
      "num_input_tokens_seen": 16323464,
      "step": 24955
    },
    {
      "epoch": 13.081761006289309,
      "grad_norm": 0.19583125412464142,
      "learning_rate": 0.0003223456181779616,
      "loss": 0.6674,
      "num_input_tokens_seen": 16330280,
      "step": 24960
    },
    {
      "epoch": 13.084381551362684,
      "grad_norm": 0.12304484844207764,
      "learning_rate": 0.0003221318730402218,
      "loss": 0.5708,
      "num_input_tokens_seen": 16333512,
      "step": 24965
    },
    {
      "epoch": 13.08700209643606,
      "grad_norm": 0.18727520108222961,
      "learning_rate": 0.00032191816511046483,
      "loss": 0.4481,
      "num_input_tokens_seen": 16335880,
      "step": 24970
    },
    {
      "epoch": 13.089622641509434,
      "grad_norm": 0.1289716511964798,
      "learning_rate": 0.0003217044944333961,
      "loss": 0.3522,
      "num_input_tokens_seen": 16338888,
      "step": 24975
    },
    {
      "epoch": 13.09224318658281,
      "grad_norm": 0.1649935245513916,
      "learning_rate": 0.00032149086105371315,
      "loss": 0.3577,
      "num_input_tokens_seen": 16341928,
      "step": 24980
    },
    {
      "epoch": 13.094863731656185,
      "grad_norm": 0.07498318701982498,
      "learning_rate": 0.00032127726501610554,
      "loss": 0.3452,
      "num_input_tokens_seen": 16346088,
      "step": 24985
    },
    {
      "epoch": 13.09748427672956,
      "grad_norm": 0.12871770560741425,
      "learning_rate": 0.00032106370636525493,
      "loss": 0.5202,
      "num_input_tokens_seen": 16349224,
      "step": 24990
    },
    {
      "epoch": 13.100104821802935,
      "grad_norm": 0.1070147380232811,
      "learning_rate": 0.00032085018514583564,
      "loss": 0.4359,
      "num_input_tokens_seen": 16351656,
      "step": 24995
    },
    {
      "epoch": 13.10272536687631,
      "grad_norm": 0.20663325488567352,
      "learning_rate": 0.00032063670140251366,
      "loss": 0.3277,
      "num_input_tokens_seen": 16354952,
      "step": 25000
    },
    {
      "epoch": 13.105345911949685,
      "grad_norm": 0.06709717959165573,
      "learning_rate": 0.0003204232551799476,
      "loss": 0.3732,
      "num_input_tokens_seen": 16358504,
      "step": 25005
    },
    {
      "epoch": 13.10796645702306,
      "grad_norm": 0.08104361593723297,
      "learning_rate": 0.00032020984652278797,
      "loss": 0.3977,
      "num_input_tokens_seen": 16361544,
      "step": 25010
    },
    {
      "epoch": 13.110587002096436,
      "grad_norm": 0.18369770050048828,
      "learning_rate": 0.000319996475475677,
      "loss": 0.7319,
      "num_input_tokens_seen": 16364904,
      "step": 25015
    },
    {
      "epoch": 13.11320754716981,
      "grad_norm": 0.14317166805267334,
      "learning_rate": 0.0003197831420832499,
      "loss": 0.4436,
      "num_input_tokens_seen": 16368104,
      "step": 25020
    },
    {
      "epoch": 13.115828092243186,
      "grad_norm": 0.09395439177751541,
      "learning_rate": 0.0003195698463901334,
      "loss": 0.3705,
      "num_input_tokens_seen": 16370600,
      "step": 25025
    },
    {
      "epoch": 13.118448637316561,
      "grad_norm": 0.18859361112117767,
      "learning_rate": 0.0003193565884409466,
      "loss": 0.4841,
      "num_input_tokens_seen": 16373672,
      "step": 25030
    },
    {
      "epoch": 13.121069182389936,
      "grad_norm": 0.12570756673812866,
      "learning_rate": 0.0003191433682803008,
      "loss": 0.5023,
      "num_input_tokens_seen": 16376904,
      "step": 25035
    },
    {
      "epoch": 13.123689727463312,
      "grad_norm": 0.07681353390216827,
      "learning_rate": 0.00031893018595279877,
      "loss": 0.516,
      "num_input_tokens_seen": 16379400,
      "step": 25040
    },
    {
      "epoch": 13.126310272536688,
      "grad_norm": 0.10036257654428482,
      "learning_rate": 0.00031871704150303624,
      "loss": 0.5969,
      "num_input_tokens_seen": 16382696,
      "step": 25045
    },
    {
      "epoch": 13.128930817610064,
      "grad_norm": 0.11074471473693848,
      "learning_rate": 0.00031850393497560034,
      "loss": 0.3855,
      "num_input_tokens_seen": 16385960,
      "step": 25050
    },
    {
      "epoch": 13.131551362683439,
      "grad_norm": 0.10179640352725983,
      "learning_rate": 0.00031829086641507054,
      "loss": 0.4635,
      "num_input_tokens_seen": 16389896,
      "step": 25055
    },
    {
      "epoch": 13.134171907756814,
      "grad_norm": 0.12013939768075943,
      "learning_rate": 0.00031807783586601865,
      "loss": 0.3808,
      "num_input_tokens_seen": 16393608,
      "step": 25060
    },
    {
      "epoch": 13.13679245283019,
      "grad_norm": 0.10841625928878784,
      "learning_rate": 0.00031786484337300805,
      "loss": 0.383,
      "num_input_tokens_seen": 16397704,
      "step": 25065
    },
    {
      "epoch": 13.139412997903564,
      "grad_norm": 0.13184243440628052,
      "learning_rate": 0.0003176518889805941,
      "loss": 0.4444,
      "num_input_tokens_seen": 16402888,
      "step": 25070
    },
    {
      "epoch": 13.14203354297694,
      "grad_norm": 0.10067326575517654,
      "learning_rate": 0.0003174389727333248,
      "loss": 0.3563,
      "num_input_tokens_seen": 16405480,
      "step": 25075
    },
    {
      "epoch": 13.144654088050315,
      "grad_norm": 0.2513870298862457,
      "learning_rate": 0.00031722609467573946,
      "loss": 0.4921,
      "num_input_tokens_seen": 16408648,
      "step": 25080
    },
    {
      "epoch": 13.14727463312369,
      "grad_norm": 0.11912783235311508,
      "learning_rate": 0.0003170132548523701,
      "loss": 0.4079,
      "num_input_tokens_seen": 16411688,
      "step": 25085
    },
    {
      "epoch": 13.149895178197065,
      "grad_norm": 0.15300114452838898,
      "learning_rate": 0.00031680045330774003,
      "loss": 0.4593,
      "num_input_tokens_seen": 16414664,
      "step": 25090
    },
    {
      "epoch": 13.15251572327044,
      "grad_norm": 0.0987318679690361,
      "learning_rate": 0.00031658769008636534,
      "loss": 0.3856,
      "num_input_tokens_seen": 16417832,
      "step": 25095
    },
    {
      "epoch": 13.155136268343815,
      "grad_norm": 0.07853055000305176,
      "learning_rate": 0.0003163749652327532,
      "loss": 0.4197,
      "num_input_tokens_seen": 16421672,
      "step": 25100
    },
    {
      "epoch": 13.15775681341719,
      "grad_norm": 0.1661510318517685,
      "learning_rate": 0.00031616227879140347,
      "loss": 0.4831,
      "num_input_tokens_seen": 16424520,
      "step": 25105
    },
    {
      "epoch": 13.160377358490566,
      "grad_norm": 0.1769970953464508,
      "learning_rate": 0.0003159496308068077,
      "loss": 0.4886,
      "num_input_tokens_seen": 16426760,
      "step": 25110
    },
    {
      "epoch": 13.16299790356394,
      "grad_norm": 0.19640561938285828,
      "learning_rate": 0.00031573702132344926,
      "loss": 0.4366,
      "num_input_tokens_seen": 16430536,
      "step": 25115
    },
    {
      "epoch": 13.165618448637316,
      "grad_norm": 0.13661794364452362,
      "learning_rate": 0.00031552445038580414,
      "loss": 0.4156,
      "num_input_tokens_seen": 16433384,
      "step": 25120
    },
    {
      "epoch": 13.168238993710691,
      "grad_norm": 0.08701390773057938,
      "learning_rate": 0.0003153119180383391,
      "loss": 0.4122,
      "num_input_tokens_seen": 16436168,
      "step": 25125
    },
    {
      "epoch": 13.170859538784066,
      "grad_norm": 0.14665888249874115,
      "learning_rate": 0.0003150994243255138,
      "loss": 0.489,
      "num_input_tokens_seen": 16438760,
      "step": 25130
    },
    {
      "epoch": 13.173480083857442,
      "grad_norm": 0.11787379533052444,
      "learning_rate": 0.00031488696929177944,
      "loss": 0.4577,
      "num_input_tokens_seen": 16441864,
      "step": 25135
    },
    {
      "epoch": 13.176100628930818,
      "grad_norm": 0.14613571763038635,
      "learning_rate": 0.00031467455298157934,
      "loss": 0.4593,
      "num_input_tokens_seen": 16445512,
      "step": 25140
    },
    {
      "epoch": 13.178721174004194,
      "grad_norm": 0.11447653919458389,
      "learning_rate": 0.0003144621754393483,
      "loss": 0.4677,
      "num_input_tokens_seen": 16448264,
      "step": 25145
    },
    {
      "epoch": 13.181341719077569,
      "grad_norm": 0.12947233021259308,
      "learning_rate": 0.0003142498367095137,
      "loss": 0.5232,
      "num_input_tokens_seen": 16451880,
      "step": 25150
    },
    {
      "epoch": 13.183962264150944,
      "grad_norm": 0.13408473134040833,
      "learning_rate": 0.00031403753683649396,
      "loss": 0.4733,
      "num_input_tokens_seen": 16454728,
      "step": 25155
    },
    {
      "epoch": 13.18658280922432,
      "grad_norm": 0.11478862911462784,
      "learning_rate": 0.0003138252758646999,
      "loss": 0.3572,
      "num_input_tokens_seen": 16457480,
      "step": 25160
    },
    {
      "epoch": 13.189203354297694,
      "grad_norm": 0.10539783537387848,
      "learning_rate": 0.00031361305383853413,
      "loss": 0.4931,
      "num_input_tokens_seen": 16460232,
      "step": 25165
    },
    {
      "epoch": 13.19182389937107,
      "grad_norm": 0.19184532761573792,
      "learning_rate": 0.00031340087080239105,
      "loss": 0.3571,
      "num_input_tokens_seen": 16462856,
      "step": 25170
    },
    {
      "epoch": 13.194444444444445,
      "grad_norm": 0.13611090183258057,
      "learning_rate": 0.0003131887268006571,
      "loss": 0.3578,
      "num_input_tokens_seen": 16465640,
      "step": 25175
    },
    {
      "epoch": 13.19706498951782,
      "grad_norm": 0.10722088813781738,
      "learning_rate": 0.00031297662187771026,
      "loss": 0.3904,
      "num_input_tokens_seen": 16468552,
      "step": 25180
    },
    {
      "epoch": 13.199685534591195,
      "grad_norm": 0.14194552600383759,
      "learning_rate": 0.0003127645560779203,
      "loss": 0.4029,
      "num_input_tokens_seen": 16471176,
      "step": 25185
    },
    {
      "epoch": 13.20230607966457,
      "grad_norm": 0.11072419583797455,
      "learning_rate": 0.0003125525294456492,
      "loss": 0.3925,
      "num_input_tokens_seen": 16473896,
      "step": 25190
    },
    {
      "epoch": 13.204926624737945,
      "grad_norm": 0.052465252578258514,
      "learning_rate": 0.0003123405420252503,
      "loss": 0.3951,
      "num_input_tokens_seen": 16478600,
      "step": 25195
    },
    {
      "epoch": 13.20754716981132,
      "grad_norm": 0.2093496024608612,
      "learning_rate": 0.00031212859386106927,
      "loss": 0.3989,
      "num_input_tokens_seen": 16482152,
      "step": 25200
    },
    {
      "epoch": 13.210167714884696,
      "grad_norm": 0.1290525645017624,
      "learning_rate": 0.00031191668499744286,
      "loss": 0.4846,
      "num_input_tokens_seen": 16485128,
      "step": 25205
    },
    {
      "epoch": 13.21278825995807,
      "grad_norm": 0.16199031472206116,
      "learning_rate": 0.00031170481547870046,
      "loss": 0.3982,
      "num_input_tokens_seen": 16488552,
      "step": 25210
    },
    {
      "epoch": 13.215408805031446,
      "grad_norm": 0.15048636496067047,
      "learning_rate": 0.00031149298534916215,
      "loss": 0.3706,
      "num_input_tokens_seen": 16490984,
      "step": 25215
    },
    {
      "epoch": 13.218029350104821,
      "grad_norm": 0.18330352008342743,
      "learning_rate": 0.00031128119465314094,
      "loss": 0.4815,
      "num_input_tokens_seen": 16493928,
      "step": 25220
    },
    {
      "epoch": 13.220649895178196,
      "grad_norm": 0.11874178051948547,
      "learning_rate": 0.0003110694434349406,
      "loss": 0.5311,
      "num_input_tokens_seen": 16496904,
      "step": 25225
    },
    {
      "epoch": 13.223270440251572,
      "grad_norm": 0.15943937003612518,
      "learning_rate": 0.0003108577317388574,
      "loss": 0.3501,
      "num_input_tokens_seen": 16499464,
      "step": 25230
    },
    {
      "epoch": 13.225890985324948,
      "grad_norm": 0.1444070190191269,
      "learning_rate": 0.00031064605960917896,
      "loss": 0.412,
      "num_input_tokens_seen": 16502376,
      "step": 25235
    },
    {
      "epoch": 13.228511530398324,
      "grad_norm": 0.12507551908493042,
      "learning_rate": 0.00031043442709018446,
      "loss": 0.4364,
      "num_input_tokens_seen": 16505288,
      "step": 25240
    },
    {
      "epoch": 13.231132075471699,
      "grad_norm": 0.11692245304584503,
      "learning_rate": 0.0003102228342261451,
      "loss": 0.5609,
      "num_input_tokens_seen": 16507912,
      "step": 25245
    },
    {
      "epoch": 13.233752620545074,
      "grad_norm": 0.10639742761850357,
      "learning_rate": 0.0003100112810613237,
      "loss": 0.4528,
      "num_input_tokens_seen": 16510824,
      "step": 25250
    },
    {
      "epoch": 13.23637316561845,
      "grad_norm": 0.18118366599082947,
      "learning_rate": 0.00030979976763997484,
      "loss": 0.4304,
      "num_input_tokens_seen": 16514408,
      "step": 25255
    },
    {
      "epoch": 13.238993710691824,
      "grad_norm": 0.14995011687278748,
      "learning_rate": 0.0003095882940063447,
      "loss": 0.3765,
      "num_input_tokens_seen": 16517480,
      "step": 25260
    },
    {
      "epoch": 13.2416142557652,
      "grad_norm": 0.10676996409893036,
      "learning_rate": 0.0003093768602046712,
      "loss": 0.3627,
      "num_input_tokens_seen": 16520968,
      "step": 25265
    },
    {
      "epoch": 13.244234800838575,
      "grad_norm": 0.11742733418941498,
      "learning_rate": 0.00030916546627918375,
      "loss": 0.3536,
      "num_input_tokens_seen": 16523976,
      "step": 25270
    },
    {
      "epoch": 13.24685534591195,
      "grad_norm": 0.1387401670217514,
      "learning_rate": 0.00030895411227410354,
      "loss": 0.4249,
      "num_input_tokens_seen": 16527336,
      "step": 25275
    },
    {
      "epoch": 13.249475890985325,
      "grad_norm": 0.10801579058170319,
      "learning_rate": 0.0003087427982336435,
      "loss": 0.4251,
      "num_input_tokens_seen": 16531368,
      "step": 25280
    },
    {
      "epoch": 13.2520964360587,
      "grad_norm": 0.0754266083240509,
      "learning_rate": 0.00030853152420200804,
      "loss": 0.4459,
      "num_input_tokens_seen": 16535016,
      "step": 25285
    },
    {
      "epoch": 13.254716981132075,
      "grad_norm": 0.203860804438591,
      "learning_rate": 0.0003083202902233932,
      "loss": 0.4555,
      "num_input_tokens_seen": 16539528,
      "step": 25290
    },
    {
      "epoch": 13.25733752620545,
      "grad_norm": 0.14325068891048431,
      "learning_rate": 0.00030810909634198727,
      "loss": 0.4597,
      "num_input_tokens_seen": 16543752,
      "step": 25295
    },
    {
      "epoch": 13.259958071278826,
      "grad_norm": 0.08240517228841782,
      "learning_rate": 0.00030789794260196893,
      "loss": 0.575,
      "num_input_tokens_seen": 16548040,
      "step": 25300
    },
    {
      "epoch": 13.2625786163522,
      "grad_norm": 0.13161756098270416,
      "learning_rate": 0.00030768682904750935,
      "loss": 0.3522,
      "num_input_tokens_seen": 16551496,
      "step": 25305
    },
    {
      "epoch": 13.265199161425576,
      "grad_norm": 0.19041919708251953,
      "learning_rate": 0.00030747575572277107,
      "loss": 0.4488,
      "num_input_tokens_seen": 16554984,
      "step": 25310
    },
    {
      "epoch": 13.267819706498951,
      "grad_norm": 0.10558455437421799,
      "learning_rate": 0.0003072647226719083,
      "loss": 0.4401,
      "num_input_tokens_seen": 16558888,
      "step": 25315
    },
    {
      "epoch": 13.270440251572326,
      "grad_norm": 0.13768698275089264,
      "learning_rate": 0.0003070537299390669,
      "loss": 0.3519,
      "num_input_tokens_seen": 16562216,
      "step": 25320
    },
    {
      "epoch": 13.273060796645701,
      "grad_norm": 0.11784996837377548,
      "learning_rate": 0.0003068427775683838,
      "loss": 0.4613,
      "num_input_tokens_seen": 16565320,
      "step": 25325
    },
    {
      "epoch": 13.275681341719078,
      "grad_norm": 0.10869169235229492,
      "learning_rate": 0.00030663186560398793,
      "loss": 0.5453,
      "num_input_tokens_seen": 16568072,
      "step": 25330
    },
    {
      "epoch": 13.278301886792454,
      "grad_norm": 0.10237501561641693,
      "learning_rate": 0.0003064209940899998,
      "loss": 0.3806,
      "num_input_tokens_seen": 16571912,
      "step": 25335
    },
    {
      "epoch": 13.280922431865829,
      "grad_norm": 0.11427740007638931,
      "learning_rate": 0.00030621016307053105,
      "loss": 0.3525,
      "num_input_tokens_seen": 16577384,
      "step": 25340
    },
    {
      "epoch": 13.283542976939204,
      "grad_norm": 0.10978283733129501,
      "learning_rate": 0.0003059993725896855,
      "loss": 0.5695,
      "num_input_tokens_seen": 16581416,
      "step": 25345
    },
    {
      "epoch": 13.286163522012579,
      "grad_norm": 0.11831234395503998,
      "learning_rate": 0.0003057886226915581,
      "loss": 0.3273,
      "num_input_tokens_seen": 16583944,
      "step": 25350
    },
    {
      "epoch": 13.288784067085954,
      "grad_norm": 0.08426804840564728,
      "learning_rate": 0.00030557791342023476,
      "loss": 0.3967,
      "num_input_tokens_seen": 16586888,
      "step": 25355
    },
    {
      "epoch": 13.29140461215933,
      "grad_norm": 0.10131639242172241,
      "learning_rate": 0.0003053672448197941,
      "loss": 0.4182,
      "num_input_tokens_seen": 16590376,
      "step": 25360
    },
    {
      "epoch": 13.294025157232705,
      "grad_norm": 0.10334202647209167,
      "learning_rate": 0.0003051566169343052,
      "loss": 0.3628,
      "num_input_tokens_seen": 16593672,
      "step": 25365
    },
    {
      "epoch": 13.29664570230608,
      "grad_norm": 0.14247150719165802,
      "learning_rate": 0.00030494602980782917,
      "loss": 0.5126,
      "num_input_tokens_seen": 16596840,
      "step": 25370
    },
    {
      "epoch": 13.299266247379455,
      "grad_norm": 0.2042875736951828,
      "learning_rate": 0.00030473548348441845,
      "loss": 0.5171,
      "num_input_tokens_seen": 16599880,
      "step": 25375
    },
    {
      "epoch": 13.30188679245283,
      "grad_norm": 0.1924670785665512,
      "learning_rate": 0.000304524978008117,
      "loss": 0.4413,
      "num_input_tokens_seen": 16602856,
      "step": 25380
    },
    {
      "epoch": 13.304507337526205,
      "grad_norm": 0.14281269907951355,
      "learning_rate": 0.0003043145134229599,
      "loss": 0.4293,
      "num_input_tokens_seen": 16606440,
      "step": 25385
    },
    {
      "epoch": 13.30712788259958,
      "grad_norm": 0.0935080274939537,
      "learning_rate": 0.0003041040897729742,
      "loss": 0.415,
      "num_input_tokens_seen": 16610248,
      "step": 25390
    },
    {
      "epoch": 13.309748427672956,
      "grad_norm": 0.18753424286842346,
      "learning_rate": 0.0003038937071021778,
      "loss": 0.4944,
      "num_input_tokens_seen": 16612584,
      "step": 25395
    },
    {
      "epoch": 13.31236897274633,
      "grad_norm": 0.08742450177669525,
      "learning_rate": 0.0003036833654545808,
      "loss": 0.4189,
      "num_input_tokens_seen": 16616168,
      "step": 25400
    },
    {
      "epoch": 13.314989517819706,
      "grad_norm": 0.12032787501811981,
      "learning_rate": 0.0003034730648741841,
      "loss": 0.4608,
      "num_input_tokens_seen": 16618984,
      "step": 25405
    },
    {
      "epoch": 13.317610062893081,
      "grad_norm": 0.10968565940856934,
      "learning_rate": 0.00030326280540497996,
      "loss": 0.4948,
      "num_input_tokens_seen": 16623208,
      "step": 25410
    },
    {
      "epoch": 13.320230607966456,
      "grad_norm": 0.07766737043857574,
      "learning_rate": 0.0003030525870909525,
      "loss": 0.3814,
      "num_input_tokens_seen": 16627656,
      "step": 25415
    },
    {
      "epoch": 13.322851153039831,
      "grad_norm": 0.13297520577907562,
      "learning_rate": 0.0003028424099760768,
      "loss": 0.4593,
      "num_input_tokens_seen": 16630280,
      "step": 25420
    },
    {
      "epoch": 13.325471698113208,
      "grad_norm": 0.1293783038854599,
      "learning_rate": 0.0003026322741043198,
      "loss": 0.4114,
      "num_input_tokens_seen": 16632904,
      "step": 25425
    },
    {
      "epoch": 13.328092243186584,
      "grad_norm": 0.12691178917884827,
      "learning_rate": 0.0003024221795196393,
      "loss": 0.4954,
      "num_input_tokens_seen": 16635624,
      "step": 25430
    },
    {
      "epoch": 13.330712788259959,
      "grad_norm": 0.19337867200374603,
      "learning_rate": 0.0003022121262659849,
      "loss": 0.5174,
      "num_input_tokens_seen": 16638760,
      "step": 25435
    },
    {
      "epoch": 13.333333333333334,
      "grad_norm": 0.26399898529052734,
      "learning_rate": 0.00030200211438729705,
      "loss": 0.5733,
      "num_input_tokens_seen": 16641448,
      "step": 25440
    },
    {
      "epoch": 13.335953878406709,
      "grad_norm": 0.13813167810440063,
      "learning_rate": 0.000301792143927508,
      "loss": 0.3904,
      "num_input_tokens_seen": 16644520,
      "step": 25445
    },
    {
      "epoch": 13.338574423480084,
      "grad_norm": 0.11243536323308945,
      "learning_rate": 0.0003015822149305411,
      "loss": 0.4662,
      "num_input_tokens_seen": 16648584,
      "step": 25450
    },
    {
      "epoch": 13.34119496855346,
      "grad_norm": 0.11128125339746475,
      "learning_rate": 0.0003013723274403113,
      "loss": 0.4677,
      "num_input_tokens_seen": 16651784,
      "step": 25455
    },
    {
      "epoch": 13.343815513626835,
      "grad_norm": 0.15813876688480377,
      "learning_rate": 0.00030116248150072444,
      "loss": 0.4043,
      "num_input_tokens_seen": 16654024,
      "step": 25460
    },
    {
      "epoch": 13.34643605870021,
      "grad_norm": 0.09543351829051971,
      "learning_rate": 0.00030095267715567816,
      "loss": 0.4443,
      "num_input_tokens_seen": 16657480,
      "step": 25465
    },
    {
      "epoch": 13.349056603773585,
      "grad_norm": 0.2500414550304413,
      "learning_rate": 0.00030074291444906085,
      "loss": 0.4668,
      "num_input_tokens_seen": 16661096,
      "step": 25470
    },
    {
      "epoch": 13.35167714884696,
      "grad_norm": 0.13075868785381317,
      "learning_rate": 0.00030053319342475247,
      "loss": 0.3584,
      "num_input_tokens_seen": 16663688,
      "step": 25475
    },
    {
      "epoch": 13.354297693920335,
      "grad_norm": 0.19507376849651337,
      "learning_rate": 0.00030032351412662465,
      "loss": 0.4424,
      "num_input_tokens_seen": 16666024,
      "step": 25480
    },
    {
      "epoch": 13.35691823899371,
      "grad_norm": 0.08288130909204483,
      "learning_rate": 0.0003001138765985394,
      "loss": 0.4343,
      "num_input_tokens_seen": 16669608,
      "step": 25485
    },
    {
      "epoch": 13.359538784067086,
      "grad_norm": 0.14390264451503754,
      "learning_rate": 0.00029990428088435097,
      "loss": 0.4961,
      "num_input_tokens_seen": 16673480,
      "step": 25490
    },
    {
      "epoch": 13.36215932914046,
      "grad_norm": 0.11766700446605682,
      "learning_rate": 0.000299694727027904,
      "loss": 0.3071,
      "num_input_tokens_seen": 16677704,
      "step": 25495
    },
    {
      "epoch": 13.364779874213836,
      "grad_norm": 0.14554539322853088,
      "learning_rate": 0.00029948521507303495,
      "loss": 0.5398,
      "num_input_tokens_seen": 16680744,
      "step": 25500
    },
    {
      "epoch": 13.367400419287211,
      "grad_norm": 0.1967945247888565,
      "learning_rate": 0.0002992757450635714,
      "loss": 0.4874,
      "num_input_tokens_seen": 16683048,
      "step": 25505
    },
    {
      "epoch": 13.370020964360586,
      "grad_norm": 0.14814896881580353,
      "learning_rate": 0.00029906631704333187,
      "loss": 0.4052,
      "num_input_tokens_seen": 16685832,
      "step": 25510
    },
    {
      "epoch": 13.372641509433961,
      "grad_norm": 0.08289001137018204,
      "learning_rate": 0.0002988569310561264,
      "loss": 0.4588,
      "num_input_tokens_seen": 16688168,
      "step": 25515
    },
    {
      "epoch": 13.375262054507338,
      "grad_norm": 0.09515263140201569,
      "learning_rate": 0.0002986475871457566,
      "loss": 0.4089,
      "num_input_tokens_seen": 16690888,
      "step": 25520
    },
    {
      "epoch": 13.377882599580714,
      "grad_norm": 0.11103588342666626,
      "learning_rate": 0.000298438285356014,
      "loss": 0.4422,
      "num_input_tokens_seen": 16694280,
      "step": 25525
    },
    {
      "epoch": 13.380503144654089,
      "grad_norm": 0.14465481042861938,
      "learning_rate": 0.00029822902573068257,
      "loss": 0.4429,
      "num_input_tokens_seen": 16697128,
      "step": 25530
    },
    {
      "epoch": 13.383123689727464,
      "grad_norm": 0.09624307602643967,
      "learning_rate": 0.0002980198083135372,
      "loss": 0.4131,
      "num_input_tokens_seen": 16701192,
      "step": 25535
    },
    {
      "epoch": 13.385744234800839,
      "grad_norm": 0.11325015872716904,
      "learning_rate": 0.0002978106331483435,
      "loss": 0.4076,
      "num_input_tokens_seen": 16706280,
      "step": 25540
    },
    {
      "epoch": 13.388364779874214,
      "grad_norm": 0.16266503930091858,
      "learning_rate": 0.00029760150027885874,
      "loss": 0.3432,
      "num_input_tokens_seen": 16709448,
      "step": 25545
    },
    {
      "epoch": 13.39098532494759,
      "grad_norm": 0.09474969655275345,
      "learning_rate": 0.0002973924097488311,
      "loss": 0.572,
      "num_input_tokens_seen": 16713256,
      "step": 25550
    },
    {
      "epoch": 13.393605870020965,
      "grad_norm": 0.12896324694156647,
      "learning_rate": 0.00029718336160199977,
      "loss": 0.4766,
      "num_input_tokens_seen": 16716296,
      "step": 25555
    },
    {
      "epoch": 13.39622641509434,
      "grad_norm": 0.13830223679542542,
      "learning_rate": 0.00029697435588209537,
      "loss": 0.4419,
      "num_input_tokens_seen": 16719432,
      "step": 25560
    },
    {
      "epoch": 13.398846960167715,
      "grad_norm": 0.13803163170814514,
      "learning_rate": 0.00029676539263283943,
      "loss": 0.3362,
      "num_input_tokens_seen": 16722536,
      "step": 25565
    },
    {
      "epoch": 13.40146750524109,
      "grad_norm": 0.08900603652000427,
      "learning_rate": 0.0002965564718979448,
      "loss": 0.5474,
      "num_input_tokens_seen": 16725704,
      "step": 25570
    },
    {
      "epoch": 13.404088050314465,
      "grad_norm": 0.1355714648962021,
      "learning_rate": 0.0002963475937211151,
      "loss": 0.4638,
      "num_input_tokens_seen": 16729192,
      "step": 25575
    },
    {
      "epoch": 13.40670859538784,
      "grad_norm": 0.11370459944009781,
      "learning_rate": 0.0002961387581460456,
      "loss": 0.416,
      "num_input_tokens_seen": 16732168,
      "step": 25580
    },
    {
      "epoch": 13.409329140461216,
      "grad_norm": 0.10948172956705093,
      "learning_rate": 0.0002959299652164221,
      "loss": 0.4301,
      "num_input_tokens_seen": 16735496,
      "step": 25585
    },
    {
      "epoch": 13.41194968553459,
      "grad_norm": 0.12992024421691895,
      "learning_rate": 0.00029572121497592154,
      "loss": 0.5108,
      "num_input_tokens_seen": 16739176,
      "step": 25590
    },
    {
      "epoch": 13.414570230607966,
      "grad_norm": 0.12960252165794373,
      "learning_rate": 0.00029551250746821236,
      "loss": 0.3746,
      "num_input_tokens_seen": 16742344,
      "step": 25595
    },
    {
      "epoch": 13.417190775681341,
      "grad_norm": 0.07931888103485107,
      "learning_rate": 0.0002953038427369537,
      "loss": 0.3567,
      "num_input_tokens_seen": 16745512,
      "step": 25600
    },
    {
      "epoch": 13.419811320754716,
      "grad_norm": 0.12526440620422363,
      "learning_rate": 0.000295095220825796,
      "loss": 0.4206,
      "num_input_tokens_seen": 16748584,
      "step": 25605
    },
    {
      "epoch": 13.422431865828091,
      "grad_norm": 0.07519867271184921,
      "learning_rate": 0.00029488664177838023,
      "loss": 0.4665,
      "num_input_tokens_seen": 16752168,
      "step": 25610
    },
    {
      "epoch": 13.425052410901468,
      "grad_norm": 0.06790585070848465,
      "learning_rate": 0.0002946781056383391,
      "loss": 0.4307,
      "num_input_tokens_seen": 16755688,
      "step": 25615
    },
    {
      "epoch": 13.427672955974844,
      "grad_norm": 0.07379250973463058,
      "learning_rate": 0.0002944696124492956,
      "loss": 0.3555,
      "num_input_tokens_seen": 16759016,
      "step": 25620
    },
    {
      "epoch": 13.430293501048219,
      "grad_norm": 0.16053590178489685,
      "learning_rate": 0.0002942611622548645,
      "loss": 0.5406,
      "num_input_tokens_seen": 16762600,
      "step": 25625
    },
    {
      "epoch": 13.432914046121594,
      "grad_norm": 0.2388734072446823,
      "learning_rate": 0.00029405275509865103,
      "loss": 0.4616,
      "num_input_tokens_seen": 16765768,
      "step": 25630
    },
    {
      "epoch": 13.435534591194969,
      "grad_norm": 0.19935286045074463,
      "learning_rate": 0.00029384439102425174,
      "loss": 0.5101,
      "num_input_tokens_seen": 16768584,
      "step": 25635
    },
    {
      "epoch": 13.438155136268344,
      "grad_norm": 0.1731073409318924,
      "learning_rate": 0.0002936360700752539,
      "loss": 0.4686,
      "num_input_tokens_seen": 16771240,
      "step": 25640
    },
    {
      "epoch": 13.44077568134172,
      "grad_norm": 0.1263563632965088,
      "learning_rate": 0.00029342779229523573,
      "loss": 0.3953,
      "num_input_tokens_seen": 16774792,
      "step": 25645
    },
    {
      "epoch": 13.443396226415095,
      "grad_norm": 0.14374162256717682,
      "learning_rate": 0.00029321955772776675,
      "loss": 0.5802,
      "num_input_tokens_seen": 16777864,
      "step": 25650
    },
    {
      "epoch": 13.44601677148847,
      "grad_norm": 0.09245388954877853,
      "learning_rate": 0.00029301136641640723,
      "loss": 0.3578,
      "num_input_tokens_seen": 16781768,
      "step": 25655
    },
    {
      "epoch": 13.448637316561845,
      "grad_norm": 0.13565513491630554,
      "learning_rate": 0.0002928032184047085,
      "loss": 0.3849,
      "num_input_tokens_seen": 16784648,
      "step": 25660
    },
    {
      "epoch": 13.45125786163522,
      "grad_norm": 0.1225239560008049,
      "learning_rate": 0.0002925951137362126,
      "loss": 0.4796,
      "num_input_tokens_seen": 16787368,
      "step": 25665
    },
    {
      "epoch": 13.453878406708595,
      "grad_norm": 0.11123241484165192,
      "learning_rate": 0.00029238705245445264,
      "loss": 0.4478,
      "num_input_tokens_seen": 16791048,
      "step": 25670
    },
    {
      "epoch": 13.45649895178197,
      "grad_norm": 0.1210499256849289,
      "learning_rate": 0.0002921790346029527,
      "loss": 0.4733,
      "num_input_tokens_seen": 16794504,
      "step": 25675
    },
    {
      "epoch": 13.459119496855346,
      "grad_norm": 0.0747903361916542,
      "learning_rate": 0.0002919710602252279,
      "loss": 0.3361,
      "num_input_tokens_seen": 16797960,
      "step": 25680
    },
    {
      "epoch": 13.46174004192872,
      "grad_norm": 0.12331891059875488,
      "learning_rate": 0.0002917631293647838,
      "loss": 0.3992,
      "num_input_tokens_seen": 16800456,
      "step": 25685
    },
    {
      "epoch": 13.464360587002096,
      "grad_norm": 0.16616594791412354,
      "learning_rate": 0.0002915552420651176,
      "loss": 0.4438,
      "num_input_tokens_seen": 16803048,
      "step": 25690
    },
    {
      "epoch": 13.466981132075471,
      "grad_norm": 0.17222270369529724,
      "learning_rate": 0.00029134739836971657,
      "loss": 0.5619,
      "num_input_tokens_seen": 16807272,
      "step": 25695
    },
    {
      "epoch": 13.469601677148846,
      "grad_norm": 0.08490920066833496,
      "learning_rate": 0.0002911395983220595,
      "loss": 0.3166,
      "num_input_tokens_seen": 16810792,
      "step": 25700
    },
    {
      "epoch": 13.472222222222221,
      "grad_norm": 0.10704397410154343,
      "learning_rate": 0.0002909318419656154,
      "loss": 0.4643,
      "num_input_tokens_seen": 16814024,
      "step": 25705
    },
    {
      "epoch": 13.474842767295598,
      "grad_norm": 0.08919965475797653,
      "learning_rate": 0.00029072412934384484,
      "loss": 0.4583,
      "num_input_tokens_seen": 16817928,
      "step": 25710
    },
    {
      "epoch": 13.477463312368974,
      "grad_norm": 0.09694115817546844,
      "learning_rate": 0.00029051646050019884,
      "loss": 0.3463,
      "num_input_tokens_seen": 16820680,
      "step": 25715
    },
    {
      "epoch": 13.480083857442349,
      "grad_norm": 0.08151854574680328,
      "learning_rate": 0.00029030883547811966,
      "loss": 0.4047,
      "num_input_tokens_seen": 16824328,
      "step": 25720
    },
    {
      "epoch": 13.482704402515724,
      "grad_norm": 0.22030724585056305,
      "learning_rate": 0.0002901012543210397,
      "loss": 0.4421,
      "num_input_tokens_seen": 16827880,
      "step": 25725
    },
    {
      "epoch": 13.485324947589099,
      "grad_norm": 0.154744490981102,
      "learning_rate": 0.00028989371707238264,
      "loss": 0.6329,
      "num_input_tokens_seen": 16830984,
      "step": 25730
    },
    {
      "epoch": 13.487945492662474,
      "grad_norm": 0.125962495803833,
      "learning_rate": 0.00028968622377556285,
      "loss": 0.5798,
      "num_input_tokens_seen": 16835144,
      "step": 25735
    },
    {
      "epoch": 13.49056603773585,
      "grad_norm": 0.17677325010299683,
      "learning_rate": 0.00028947877447398567,
      "loss": 0.4796,
      "num_input_tokens_seen": 16838152,
      "step": 25740
    },
    {
      "epoch": 13.493186582809225,
      "grad_norm": 0.09494394809007645,
      "learning_rate": 0.00028927136921104733,
      "loss": 0.3406,
      "num_input_tokens_seen": 16841480,
      "step": 25745
    },
    {
      "epoch": 13.4958071278826,
      "grad_norm": 0.09462455660104752,
      "learning_rate": 0.00028906400803013446,
      "loss": 0.4243,
      "num_input_tokens_seen": 16845288,
      "step": 25750
    },
    {
      "epoch": 13.498427672955975,
      "grad_norm": 0.14333392679691315,
      "learning_rate": 0.00028885669097462435,
      "loss": 0.5425,
      "num_input_tokens_seen": 16849096,
      "step": 25755
    },
    {
      "epoch": 13.50104821802935,
      "grad_norm": 0.13225746154785156,
      "learning_rate": 0.0002886494180878857,
      "loss": 0.5069,
      "num_input_tokens_seen": 16852232,
      "step": 25760
    },
    {
      "epoch": 13.503668763102725,
      "grad_norm": 0.2872021198272705,
      "learning_rate": 0.00028844218941327757,
      "loss": 0.5724,
      "num_input_tokens_seen": 16855176,
      "step": 25765
    },
    {
      "epoch": 13.5062893081761,
      "grad_norm": 0.1382739543914795,
      "learning_rate": 0.0002882350049941498,
      "loss": 0.3316,
      "num_input_tokens_seen": 16858344,
      "step": 25770
    },
    {
      "epoch": 13.508909853249476,
      "grad_norm": 0.14124982059001923,
      "learning_rate": 0.0002880278648738432,
      "loss": 0.5357,
      "num_input_tokens_seen": 16861896,
      "step": 25775
    },
    {
      "epoch": 13.51153039832285,
      "grad_norm": 0.12032772600650787,
      "learning_rate": 0.0002878207690956891,
      "loss": 0.4439,
      "num_input_tokens_seen": 16865704,
      "step": 25780
    },
    {
      "epoch": 13.514150943396226,
      "grad_norm": 0.11000451445579529,
      "learning_rate": 0.00028761371770300915,
      "loss": 0.5238,
      "num_input_tokens_seen": 16868616,
      "step": 25785
    },
    {
      "epoch": 13.516771488469601,
      "grad_norm": 0.0712931677699089,
      "learning_rate": 0.0002874067107391164,
      "loss": 0.3693,
      "num_input_tokens_seen": 16871816,
      "step": 25790
    },
    {
      "epoch": 13.519392033542976,
      "grad_norm": 0.19673039019107819,
      "learning_rate": 0.00028719974824731445,
      "loss": 0.4308,
      "num_input_tokens_seen": 16875016,
      "step": 25795
    },
    {
      "epoch": 13.522012578616351,
      "grad_norm": 0.1323763132095337,
      "learning_rate": 0.0002869928302708975,
      "loss": 0.4838,
      "num_input_tokens_seen": 16877928,
      "step": 25800
    },
    {
      "epoch": 13.524633123689728,
      "grad_norm": 0.11864272505044937,
      "learning_rate": 0.00028678595685315044,
      "loss": 0.3847,
      "num_input_tokens_seen": 16881896,
      "step": 25805
    },
    {
      "epoch": 13.527253668763104,
      "grad_norm": 0.16189220547676086,
      "learning_rate": 0.00028657912803734854,
      "loss": 0.4514,
      "num_input_tokens_seen": 16884744,
      "step": 25810
    },
    {
      "epoch": 13.529874213836479,
      "grad_norm": 0.150180384516716,
      "learning_rate": 0.00028637234386675816,
      "loss": 0.25,
      "num_input_tokens_seen": 16890376,
      "step": 25815
    },
    {
      "epoch": 13.532494758909854,
      "grad_norm": 0.12920643389225006,
      "learning_rate": 0.00028616560438463626,
      "loss": 0.3812,
      "num_input_tokens_seen": 16892840,
      "step": 25820
    },
    {
      "epoch": 13.535115303983229,
      "grad_norm": 0.2118324339389801,
      "learning_rate": 0.00028595890963423057,
      "loss": 0.5691,
      "num_input_tokens_seen": 16896552,
      "step": 25825
    },
    {
      "epoch": 13.537735849056604,
      "grad_norm": 0.2753809988498688,
      "learning_rate": 0.0002857522596587789,
      "loss": 0.4051,
      "num_input_tokens_seen": 16899112,
      "step": 25830
    },
    {
      "epoch": 13.54035639412998,
      "grad_norm": 0.2538001537322998,
      "learning_rate": 0.00028554565450151045,
      "loss": 0.2858,
      "num_input_tokens_seen": 16902536,
      "step": 25835
    },
    {
      "epoch": 13.542976939203355,
      "grad_norm": 0.11375784873962402,
      "learning_rate": 0.00028533909420564417,
      "loss": 0.4959,
      "num_input_tokens_seen": 16905576,
      "step": 25840
    },
    {
      "epoch": 13.54559748427673,
      "grad_norm": 0.11465585976839066,
      "learning_rate": 0.00028513257881439047,
      "loss": 0.5913,
      "num_input_tokens_seen": 16909128,
      "step": 25845
    },
    {
      "epoch": 13.548218029350105,
      "grad_norm": 0.20576322078704834,
      "learning_rate": 0.00028492610837095003,
      "loss": 0.4106,
      "num_input_tokens_seen": 16911592,
      "step": 25850
    },
    {
      "epoch": 13.55083857442348,
      "grad_norm": 0.21212497353553772,
      "learning_rate": 0.00028471968291851407,
      "loss": 0.5046,
      "num_input_tokens_seen": 16914536,
      "step": 25855
    },
    {
      "epoch": 13.553459119496855,
      "grad_norm": 0.10095668584108353,
      "learning_rate": 0.0002845133025002645,
      "loss": 0.5295,
      "num_input_tokens_seen": 16920936,
      "step": 25860
    },
    {
      "epoch": 13.55607966457023,
      "grad_norm": 0.10363269597291946,
      "learning_rate": 0.0002843069671593734,
      "loss": 0.4272,
      "num_input_tokens_seen": 16923464,
      "step": 25865
    },
    {
      "epoch": 13.558700209643606,
      "grad_norm": 0.11503772437572479,
      "learning_rate": 0.000284100676939004,
      "loss": 0.4576,
      "num_input_tokens_seen": 16926152,
      "step": 25870
    },
    {
      "epoch": 13.56132075471698,
      "grad_norm": 0.09426798671483994,
      "learning_rate": 0.0002838944318823099,
      "loss": 0.4022,
      "num_input_tokens_seen": 16929928,
      "step": 25875
    },
    {
      "epoch": 13.563941299790356,
      "grad_norm": 0.08708705008029938,
      "learning_rate": 0.0002836882320324354,
      "loss": 0.5013,
      "num_input_tokens_seen": 16933864,
      "step": 25880
    },
    {
      "epoch": 13.566561844863731,
      "grad_norm": 0.23284420371055603,
      "learning_rate": 0.00028348207743251477,
      "loss": 0.389,
      "num_input_tokens_seen": 16936392,
      "step": 25885
    },
    {
      "epoch": 13.569182389937106,
      "grad_norm": 0.08326554298400879,
      "learning_rate": 0.0002832759681256735,
      "loss": 0.4655,
      "num_input_tokens_seen": 16940008,
      "step": 25890
    },
    {
      "epoch": 13.571802935010481,
      "grad_norm": 0.11056262999773026,
      "learning_rate": 0.000283069904155027,
      "loss": 0.4278,
      "num_input_tokens_seen": 16943176,
      "step": 25895
    },
    {
      "epoch": 13.574423480083858,
      "grad_norm": 0.1584363877773285,
      "learning_rate": 0.0002828638855636817,
      "loss": 0.5652,
      "num_input_tokens_seen": 16945992,
      "step": 25900
    },
    {
      "epoch": 13.577044025157234,
      "grad_norm": 0.11306549608707428,
      "learning_rate": 0.0002826579123947345,
      "loss": 0.5934,
      "num_input_tokens_seen": 16949352,
      "step": 25905
    },
    {
      "epoch": 13.579664570230609,
      "grad_norm": 0.09506576508283615,
      "learning_rate": 0.0002824519846912723,
      "loss": 0.5034,
      "num_input_tokens_seen": 16953000,
      "step": 25910
    },
    {
      "epoch": 13.582285115303984,
      "grad_norm": 0.06817792356014252,
      "learning_rate": 0.00028224610249637293,
      "loss": 0.4012,
      "num_input_tokens_seen": 16956232,
      "step": 25915
    },
    {
      "epoch": 13.584905660377359,
      "grad_norm": 0.15149173140525818,
      "learning_rate": 0.00028204026585310483,
      "loss": 0.5411,
      "num_input_tokens_seen": 16959464,
      "step": 25920
    },
    {
      "epoch": 13.587526205450734,
      "grad_norm": 0.13998030126094818,
      "learning_rate": 0.0002818344748045264,
      "loss": 0.4602,
      "num_input_tokens_seen": 16962440,
      "step": 25925
    },
    {
      "epoch": 13.59014675052411,
      "grad_norm": 0.11134129762649536,
      "learning_rate": 0.0002816287293936868,
      "loss": 0.4356,
      "num_input_tokens_seen": 16965608,
      "step": 25930
    },
    {
      "epoch": 13.592767295597485,
      "grad_norm": 0.09194597601890564,
      "learning_rate": 0.0002814230296636259,
      "loss": 0.4424,
      "num_input_tokens_seen": 16969864,
      "step": 25935
    },
    {
      "epoch": 13.59538784067086,
      "grad_norm": 0.13137173652648926,
      "learning_rate": 0.0002812173756573734,
      "loss": 0.4828,
      "num_input_tokens_seen": 16972840,
      "step": 25940
    },
    {
      "epoch": 13.598008385744235,
      "grad_norm": 0.15462689101696014,
      "learning_rate": 0.00028101176741794984,
      "loss": 0.5054,
      "num_input_tokens_seen": 16975816,
      "step": 25945
    },
    {
      "epoch": 13.60062893081761,
      "grad_norm": 0.11753512173891068,
      "learning_rate": 0.0002808062049883664,
      "loss": 0.377,
      "num_input_tokens_seen": 16979016,
      "step": 25950
    },
    {
      "epoch": 13.603249475890985,
      "grad_norm": 0.10694267600774765,
      "learning_rate": 0.00028060068841162403,
      "loss": 0.3899,
      "num_input_tokens_seen": 16982056,
      "step": 25955
    },
    {
      "epoch": 13.60587002096436,
      "grad_norm": 0.17551444470882416,
      "learning_rate": 0.00028039521773071477,
      "loss": 0.3557,
      "num_input_tokens_seen": 16985032,
      "step": 25960
    },
    {
      "epoch": 13.608490566037736,
      "grad_norm": 0.1371052861213684,
      "learning_rate": 0.0002801897929886204,
      "loss": 0.4996,
      "num_input_tokens_seen": 16988008,
      "step": 25965
    },
    {
      "epoch": 13.61111111111111,
      "grad_norm": 0.12089954316616058,
      "learning_rate": 0.0002799844142283135,
      "loss": 0.4752,
      "num_input_tokens_seen": 16990696,
      "step": 25970
    },
    {
      "epoch": 13.613731656184486,
      "grad_norm": 0.08761191368103027,
      "learning_rate": 0.00027977908149275733,
      "loss": 0.4841,
      "num_input_tokens_seen": 16994088,
      "step": 25975
    },
    {
      "epoch": 13.616352201257861,
      "grad_norm": 0.15989404916763306,
      "learning_rate": 0.00027957379482490476,
      "loss": 0.4766,
      "num_input_tokens_seen": 16997000,
      "step": 25980
    },
    {
      "epoch": 13.618972746331236,
      "grad_norm": 0.18516214191913605,
      "learning_rate": 0.0002793685542676997,
      "loss": 0.4687,
      "num_input_tokens_seen": 16999912,
      "step": 25985
    },
    {
      "epoch": 13.621593291404611,
      "grad_norm": 0.15384052693843842,
      "learning_rate": 0.0002791633598640758,
      "loss": 0.4529,
      "num_input_tokens_seen": 17003368,
      "step": 25990
    },
    {
      "epoch": 13.624213836477988,
      "grad_norm": 0.1017242819070816,
      "learning_rate": 0.0002789582116569576,
      "loss": 0.4306,
      "num_input_tokens_seen": 17007336,
      "step": 25995
    },
    {
      "epoch": 13.626834381551364,
      "grad_norm": 0.1744440495967865,
      "learning_rate": 0.0002787531096892597,
      "loss": 0.3794,
      "num_input_tokens_seen": 17010056,
      "step": 26000
    },
    {
      "epoch": 13.629454926624739,
      "grad_norm": 0.1343517303466797,
      "learning_rate": 0.0002785480540038874,
      "loss": 0.4432,
      "num_input_tokens_seen": 17012776,
      "step": 26005
    },
    {
      "epoch": 13.632075471698114,
      "grad_norm": 0.11708101630210876,
      "learning_rate": 0.0002783430446437355,
      "loss": 0.3931,
      "num_input_tokens_seen": 17016872,
      "step": 26010
    },
    {
      "epoch": 13.634696016771489,
      "grad_norm": 0.1206098273396492,
      "learning_rate": 0.00027813808165169006,
      "loss": 0.5762,
      "num_input_tokens_seen": 17020680,
      "step": 26015
    },
    {
      "epoch": 13.637316561844864,
      "grad_norm": 0.09021079540252686,
      "learning_rate": 0.00027793316507062667,
      "loss": 0.4381,
      "num_input_tokens_seen": 17024168,
      "step": 26020
    },
    {
      "epoch": 13.63993710691824,
      "grad_norm": 0.11368953436613083,
      "learning_rate": 0.00027772829494341163,
      "loss": 0.5125,
      "num_input_tokens_seen": 17027304,
      "step": 26025
    },
    {
      "epoch": 13.642557651991615,
      "grad_norm": 0.09619385004043579,
      "learning_rate": 0.00027752347131290147,
      "loss": 0.3652,
      "num_input_tokens_seen": 17030344,
      "step": 26030
    },
    {
      "epoch": 13.64517819706499,
      "grad_norm": 0.09905441850423813,
      "learning_rate": 0.0002773186942219431,
      "loss": 0.4404,
      "num_input_tokens_seen": 17034504,
      "step": 26035
    },
    {
      "epoch": 13.647798742138365,
      "grad_norm": 0.1704847365617752,
      "learning_rate": 0.0002771139637133735,
      "loss": 0.4952,
      "num_input_tokens_seen": 17038120,
      "step": 26040
    },
    {
      "epoch": 13.65041928721174,
      "grad_norm": 0.11318797618150711,
      "learning_rate": 0.00027690927983001966,
      "loss": 0.4258,
      "num_input_tokens_seen": 17041128,
      "step": 26045
    },
    {
      "epoch": 13.653039832285115,
      "grad_norm": 0.12744304537773132,
      "learning_rate": 0.00027670464261469937,
      "loss": 0.7873,
      "num_input_tokens_seen": 17043464,
      "step": 26050
    },
    {
      "epoch": 13.65566037735849,
      "grad_norm": 0.12605606019496918,
      "learning_rate": 0.0002765000521102203,
      "loss": 0.5778,
      "num_input_tokens_seen": 17045960,
      "step": 26055
    },
    {
      "epoch": 13.658280922431866,
      "grad_norm": 0.1764405071735382,
      "learning_rate": 0.0002762955083593807,
      "loss": 0.4944,
      "num_input_tokens_seen": 17050280,
      "step": 26060
    },
    {
      "epoch": 13.66090146750524,
      "grad_norm": 0.11030402779579163,
      "learning_rate": 0.0002760910114049686,
      "loss": 0.5492,
      "num_input_tokens_seen": 17053352,
      "step": 26065
    },
    {
      "epoch": 13.663522012578616,
      "grad_norm": 0.13241054117679596,
      "learning_rate": 0.0002758865612897623,
      "loss": 0.5713,
      "num_input_tokens_seen": 17055880,
      "step": 26070
    },
    {
      "epoch": 13.666142557651991,
      "grad_norm": 0.35397693514823914,
      "learning_rate": 0.00027568215805653045,
      "loss": 0.41,
      "num_input_tokens_seen": 17059368,
      "step": 26075
    },
    {
      "epoch": 13.668763102725366,
      "grad_norm": 0.10918638855218887,
      "learning_rate": 0.00027547780174803205,
      "loss": 0.454,
      "num_input_tokens_seen": 17062184,
      "step": 26080
    },
    {
      "epoch": 13.671383647798741,
      "grad_norm": 0.10942032188177109,
      "learning_rate": 0.0002752734924070161,
      "loss": 0.501,
      "num_input_tokens_seen": 17066504,
      "step": 26085
    },
    {
      "epoch": 13.674004192872118,
      "grad_norm": 0.14284852147102356,
      "learning_rate": 0.00027506923007622177,
      "loss": 0.4642,
      "num_input_tokens_seen": 17069512,
      "step": 26090
    },
    {
      "epoch": 13.676624737945493,
      "grad_norm": 0.13179758191108704,
      "learning_rate": 0.00027486501479837846,
      "loss": 0.5027,
      "num_input_tokens_seen": 17072040,
      "step": 26095
    },
    {
      "epoch": 13.679245283018869,
      "grad_norm": 0.1487247347831726,
      "learning_rate": 0.0002746608466162053,
      "loss": 0.3675,
      "num_input_tokens_seen": 17074536,
      "step": 26100
    },
    {
      "epoch": 13.681865828092244,
      "grad_norm": 0.09980084002017975,
      "learning_rate": 0.0002744567255724123,
      "loss": 0.3275,
      "num_input_tokens_seen": 17080168,
      "step": 26105
    },
    {
      "epoch": 13.684486373165619,
      "grad_norm": 0.18503616750240326,
      "learning_rate": 0.0002742526517096992,
      "loss": 0.4286,
      "num_input_tokens_seen": 17083208,
      "step": 26110
    },
    {
      "epoch": 13.687106918238994,
      "grad_norm": 0.11313878744840622,
      "learning_rate": 0.000274048625070756,
      "loss": 0.3531,
      "num_input_tokens_seen": 17086632,
      "step": 26115
    },
    {
      "epoch": 13.68972746331237,
      "grad_norm": 0.1825329065322876,
      "learning_rate": 0.0002738446456982627,
      "loss": 0.5046,
      "num_input_tokens_seen": 17090952,
      "step": 26120
    },
    {
      "epoch": 13.692348008385745,
      "grad_norm": 0.1102592721581459,
      "learning_rate": 0.0002736407136348892,
      "loss": 0.4315,
      "num_input_tokens_seen": 17093416,
      "step": 26125
    },
    {
      "epoch": 13.69496855345912,
      "grad_norm": 0.14582377672195435,
      "learning_rate": 0.0002734368289232959,
      "loss": 0.4548,
      "num_input_tokens_seen": 17097160,
      "step": 26130
    },
    {
      "epoch": 13.697589098532495,
      "grad_norm": 0.09066873788833618,
      "learning_rate": 0.00027323299160613335,
      "loss": 0.3486,
      "num_input_tokens_seen": 17100680,
      "step": 26135
    },
    {
      "epoch": 13.70020964360587,
      "grad_norm": 0.07147170603275299,
      "learning_rate": 0.00027302920172604173,
      "loss": 0.3986,
      "num_input_tokens_seen": 17104456,
      "step": 26140
    },
    {
      "epoch": 13.702830188679245,
      "grad_norm": 0.1297130584716797,
      "learning_rate": 0.00027282545932565214,
      "loss": 0.3478,
      "num_input_tokens_seen": 17107080,
      "step": 26145
    },
    {
      "epoch": 13.70545073375262,
      "grad_norm": 0.2500077486038208,
      "learning_rate": 0.00027262176444758435,
      "loss": 0.4441,
      "num_input_tokens_seen": 17113064,
      "step": 26150
    },
    {
      "epoch": 13.708071278825996,
      "grad_norm": 0.1469295173883438,
      "learning_rate": 0.00027241811713444935,
      "loss": 0.4705,
      "num_input_tokens_seen": 17116072,
      "step": 26155
    },
    {
      "epoch": 13.71069182389937,
      "grad_norm": 0.1259278804063797,
      "learning_rate": 0.0002722145174288478,
      "loss": 0.3689,
      "num_input_tokens_seen": 17119720,
      "step": 26160
    },
    {
      "epoch": 13.713312368972746,
      "grad_norm": 0.328928679227829,
      "learning_rate": 0.0002720109653733706,
      "loss": 0.4852,
      "num_input_tokens_seen": 17122312,
      "step": 26165
    },
    {
      "epoch": 13.715932914046121,
      "grad_norm": 0.22678670287132263,
      "learning_rate": 0.00027180746101059856,
      "loss": 0.4972,
      "num_input_tokens_seen": 17125544,
      "step": 26170
    },
    {
      "epoch": 13.718553459119496,
      "grad_norm": 0.10726982355117798,
      "learning_rate": 0.0002716040043831023,
      "loss": 0.4667,
      "num_input_tokens_seen": 17128968,
      "step": 26175
    },
    {
      "epoch": 13.721174004192871,
      "grad_norm": 0.08469115942716599,
      "learning_rate": 0.0002714005955334424,
      "loss": 0.4882,
      "num_input_tokens_seen": 17132712,
      "step": 26180
    },
    {
      "epoch": 13.723794549266248,
      "grad_norm": 0.1339719146490097,
      "learning_rate": 0.00027119723450417,
      "loss": 0.4169,
      "num_input_tokens_seen": 17136104,
      "step": 26185
    },
    {
      "epoch": 13.726415094339622,
      "grad_norm": 0.09566272795200348,
      "learning_rate": 0.0002709939213378258,
      "loss": 0.3091,
      "num_input_tokens_seen": 17139240,
      "step": 26190
    },
    {
      "epoch": 13.729035639412999,
      "grad_norm": 0.09827452898025513,
      "learning_rate": 0.0002707906560769408,
      "loss": 0.4487,
      "num_input_tokens_seen": 17142344,
      "step": 26195
    },
    {
      "epoch": 13.731656184486374,
      "grad_norm": 0.14458376169204712,
      "learning_rate": 0.0002705874387640354,
      "loss": 0.5332,
      "num_input_tokens_seen": 17145992,
      "step": 26200
    },
    {
      "epoch": 13.734276729559749,
      "grad_norm": 0.1009441390633583,
      "learning_rate": 0.00027038426944162074,
      "loss": 0.469,
      "num_input_tokens_seen": 17149544,
      "step": 26205
    },
    {
      "epoch": 13.736897274633124,
      "grad_norm": 0.12587666511535645,
      "learning_rate": 0.0002701811481521971,
      "loss": 0.4478,
      "num_input_tokens_seen": 17152616,
      "step": 26210
    },
    {
      "epoch": 13.7395178197065,
      "grad_norm": 0.15888671576976776,
      "learning_rate": 0.0002699780749382554,
      "loss": 0.5758,
      "num_input_tokens_seen": 17154888,
      "step": 26215
    },
    {
      "epoch": 13.742138364779874,
      "grad_norm": 0.15379562973976135,
      "learning_rate": 0.0002697750498422761,
      "loss": 0.3789,
      "num_input_tokens_seen": 17157960,
      "step": 26220
    },
    {
      "epoch": 13.74475890985325,
      "grad_norm": 0.12665139138698578,
      "learning_rate": 0.0002695720729067301,
      "loss": 0.5041,
      "num_input_tokens_seen": 17160936,
      "step": 26225
    },
    {
      "epoch": 13.747379454926625,
      "grad_norm": 0.18065138161182404,
      "learning_rate": 0.00026936914417407756,
      "loss": 0.3774,
      "num_input_tokens_seen": 17164136,
      "step": 26230
    },
    {
      "epoch": 13.75,
      "grad_norm": 0.11621176451444626,
      "learning_rate": 0.0002691662636867687,
      "loss": 0.4878,
      "num_input_tokens_seen": 17167176,
      "step": 26235
    },
    {
      "epoch": 13.752620545073375,
      "grad_norm": 0.08686090260744095,
      "learning_rate": 0.000268963431487244,
      "loss": 0.4943,
      "num_input_tokens_seen": 17170504,
      "step": 26240
    },
    {
      "epoch": 13.75524109014675,
      "grad_norm": 0.10921610891819,
      "learning_rate": 0.0002687606476179336,
      "loss": 0.3319,
      "num_input_tokens_seen": 17173896,
      "step": 26245
    },
    {
      "epoch": 13.757861635220126,
      "grad_norm": 0.1619139313697815,
      "learning_rate": 0.0002685579121212578,
      "loss": 0.4834,
      "num_input_tokens_seen": 17176904,
      "step": 26250
    },
    {
      "epoch": 13.7604821802935,
      "grad_norm": 0.11158748716115952,
      "learning_rate": 0.00026835522503962616,
      "loss": 0.3694,
      "num_input_tokens_seen": 17179784,
      "step": 26255
    },
    {
      "epoch": 13.763102725366876,
      "grad_norm": 0.14326728880405426,
      "learning_rate": 0.00026815258641543896,
      "loss": 0.4081,
      "num_input_tokens_seen": 17182984,
      "step": 26260
    },
    {
      "epoch": 13.765723270440251,
      "grad_norm": 0.10431455820798874,
      "learning_rate": 0.0002679499962910853,
      "loss": 0.4973,
      "num_input_tokens_seen": 17185608,
      "step": 26265
    },
    {
      "epoch": 13.768343815513626,
      "grad_norm": 0.12786130607128143,
      "learning_rate": 0.0002677474547089451,
      "loss": 0.4691,
      "num_input_tokens_seen": 17189512,
      "step": 26270
    },
    {
      "epoch": 13.770964360587001,
      "grad_norm": 0.13846421241760254,
      "learning_rate": 0.000267544961711388,
      "loss": 0.4853,
      "num_input_tokens_seen": 17192360,
      "step": 26275
    },
    {
      "epoch": 13.773584905660378,
      "grad_norm": 0.1562711000442505,
      "learning_rate": 0.0002673425173407726,
      "loss": 0.4601,
      "num_input_tokens_seen": 17196296,
      "step": 26280
    },
    {
      "epoch": 13.776205450733752,
      "grad_norm": 0.11223838478326797,
      "learning_rate": 0.00026714012163944826,
      "loss": 0.4513,
      "num_input_tokens_seen": 17199176,
      "step": 26285
    },
    {
      "epoch": 13.778825995807129,
      "grad_norm": 0.07540440559387207,
      "learning_rate": 0.0002669377746497541,
      "loss": 0.3665,
      "num_input_tokens_seen": 17203688,
      "step": 26290
    },
    {
      "epoch": 13.781446540880504,
      "grad_norm": 0.16354906558990479,
      "learning_rate": 0.0002667354764140184,
      "loss": 0.4991,
      "num_input_tokens_seen": 17206632,
      "step": 26295
    },
    {
      "epoch": 13.784067085953879,
      "grad_norm": 0.08904480934143066,
      "learning_rate": 0.00026653322697455987,
      "loss": 0.436,
      "num_input_tokens_seen": 17209992,
      "step": 26300
    },
    {
      "epoch": 13.786687631027254,
      "grad_norm": 0.14630043506622314,
      "learning_rate": 0.00026633102637368684,
      "loss": 0.3853,
      "num_input_tokens_seen": 17212968,
      "step": 26305
    },
    {
      "epoch": 13.78930817610063,
      "grad_norm": 0.3364577889442444,
      "learning_rate": 0.00026612887465369704,
      "loss": 0.347,
      "num_input_tokens_seen": 17216200,
      "step": 26310
    },
    {
      "epoch": 13.791928721174004,
      "grad_norm": 0.1432168185710907,
      "learning_rate": 0.0002659267718568786,
      "loss": 0.5128,
      "num_input_tokens_seen": 17219144,
      "step": 26315
    },
    {
      "epoch": 13.79454926624738,
      "grad_norm": 0.06784103810787201,
      "learning_rate": 0.0002657247180255091,
      "loss": 0.3471,
      "num_input_tokens_seen": 17222792,
      "step": 26320
    },
    {
      "epoch": 13.797169811320755,
      "grad_norm": 0.11102762818336487,
      "learning_rate": 0.0002655227132018558,
      "loss": 0.5078,
      "num_input_tokens_seen": 17226152,
      "step": 26325
    },
    {
      "epoch": 13.79979035639413,
      "grad_norm": 0.1888861507177353,
      "learning_rate": 0.00026532075742817594,
      "loss": 0.5034,
      "num_input_tokens_seen": 17228456,
      "step": 26330
    },
    {
      "epoch": 13.802410901467505,
      "grad_norm": 0.11481409519910812,
      "learning_rate": 0.0002651188507467161,
      "loss": 0.3536,
      "num_input_tokens_seen": 17231400,
      "step": 26335
    },
    {
      "epoch": 13.80503144654088,
      "grad_norm": 0.08587885648012161,
      "learning_rate": 0.00026491699319971303,
      "loss": 0.5127,
      "num_input_tokens_seen": 17235112,
      "step": 26340
    },
    {
      "epoch": 13.807651991614255,
      "grad_norm": 0.11679764091968536,
      "learning_rate": 0.00026471518482939317,
      "loss": 0.4485,
      "num_input_tokens_seen": 17238280,
      "step": 26345
    },
    {
      "epoch": 13.81027253668763,
      "grad_norm": 0.11827287822961807,
      "learning_rate": 0.0002645134256779722,
      "loss": 0.4853,
      "num_input_tokens_seen": 17241192,
      "step": 26350
    },
    {
      "epoch": 13.812893081761006,
      "grad_norm": 0.29371896386146545,
      "learning_rate": 0.00026431171578765624,
      "loss": 0.6714,
      "num_input_tokens_seen": 17244712,
      "step": 26355
    },
    {
      "epoch": 13.815513626834381,
      "grad_norm": 0.09304186701774597,
      "learning_rate": 0.0002641100552006402,
      "loss": 0.4853,
      "num_input_tokens_seen": 17248648,
      "step": 26360
    },
    {
      "epoch": 13.818134171907756,
      "grad_norm": 0.14206266403198242,
      "learning_rate": 0.0002639084439591095,
      "loss": 0.5194,
      "num_input_tokens_seen": 17252136,
      "step": 26365
    },
    {
      "epoch": 13.820754716981131,
      "grad_norm": 0.1226312518119812,
      "learning_rate": 0.00026370688210523873,
      "loss": 0.3787,
      "num_input_tokens_seen": 17254952,
      "step": 26370
    },
    {
      "epoch": 13.823375262054507,
      "grad_norm": 0.1654287874698639,
      "learning_rate": 0.00026350536968119275,
      "loss": 0.4119,
      "num_input_tokens_seen": 17258280,
      "step": 26375
    },
    {
      "epoch": 13.825995807127882,
      "grad_norm": 0.19797269999980927,
      "learning_rate": 0.0002633039067291252,
      "loss": 0.4439,
      "num_input_tokens_seen": 17260840,
      "step": 26380
    },
    {
      "epoch": 13.828616352201259,
      "grad_norm": 0.1122068390250206,
      "learning_rate": 0.00026310249329118007,
      "loss": 0.5009,
      "num_input_tokens_seen": 17264488,
      "step": 26385
    },
    {
      "epoch": 13.831236897274634,
      "grad_norm": 0.1955755352973938,
      "learning_rate": 0.0002629011294094905,
      "loss": 0.492,
      "num_input_tokens_seen": 17267592,
      "step": 26390
    },
    {
      "epoch": 13.833857442348009,
      "grad_norm": 0.14739498496055603,
      "learning_rate": 0.0002626998151261798,
      "loss": 0.3121,
      "num_input_tokens_seen": 17270888,
      "step": 26395
    },
    {
      "epoch": 13.836477987421384,
      "grad_norm": 0.1003885343670845,
      "learning_rate": 0.0002624985504833604,
      "loss": 0.3976,
      "num_input_tokens_seen": 17274152,
      "step": 26400
    },
    {
      "epoch": 13.83909853249476,
      "grad_norm": 0.12737028300762177,
      "learning_rate": 0.0002622973355231349,
      "loss": 0.6718,
      "num_input_tokens_seen": 17276808,
      "step": 26405
    },
    {
      "epoch": 13.841719077568134,
      "grad_norm": 0.09214574098587036,
      "learning_rate": 0.00026209617028759497,
      "loss": 0.3268,
      "num_input_tokens_seen": 17281192,
      "step": 26410
    },
    {
      "epoch": 13.84433962264151,
      "grad_norm": 0.20250974595546722,
      "learning_rate": 0.00026189505481882184,
      "loss": 0.3571,
      "num_input_tokens_seen": 17284936,
      "step": 26415
    },
    {
      "epoch": 13.846960167714885,
      "grad_norm": 0.1550958752632141,
      "learning_rate": 0.00026169398915888687,
      "loss": 0.5297,
      "num_input_tokens_seen": 17287624,
      "step": 26420
    },
    {
      "epoch": 13.84958071278826,
      "grad_norm": 0.32643094658851624,
      "learning_rate": 0.0002614929733498506,
      "loss": 0.4629,
      "num_input_tokens_seen": 17290600,
      "step": 26425
    },
    {
      "epoch": 13.852201257861635,
      "grad_norm": 0.15406939387321472,
      "learning_rate": 0.0002612920074337634,
      "loss": 0.4287,
      "num_input_tokens_seen": 17292904,
      "step": 26430
    },
    {
      "epoch": 13.85482180293501,
      "grad_norm": 0.09908850491046906,
      "learning_rate": 0.00026109109145266496,
      "loss": 0.3763,
      "num_input_tokens_seen": 17296232,
      "step": 26435
    },
    {
      "epoch": 13.857442348008385,
      "grad_norm": 0.09662657231092453,
      "learning_rate": 0.00026089022544858445,
      "loss": 0.5031,
      "num_input_tokens_seen": 17300360,
      "step": 26440
    },
    {
      "epoch": 13.86006289308176,
      "grad_norm": 0.12753933668136597,
      "learning_rate": 0.00026068940946354075,
      "loss": 0.4824,
      "num_input_tokens_seen": 17303720,
      "step": 26445
    },
    {
      "epoch": 13.862683438155136,
      "grad_norm": 0.23931898176670074,
      "learning_rate": 0.0002604886435395425,
      "loss": 0.4597,
      "num_input_tokens_seen": 17306568,
      "step": 26450
    },
    {
      "epoch": 13.865303983228511,
      "grad_norm": 0.14184197783470154,
      "learning_rate": 0.00026028792771858744,
      "loss": 0.4352,
      "num_input_tokens_seen": 17310280,
      "step": 26455
    },
    {
      "epoch": 13.867924528301886,
      "grad_norm": 0.160745769739151,
      "learning_rate": 0.00026008726204266333,
      "loss": 0.3888,
      "num_input_tokens_seen": 17315272,
      "step": 26460
    },
    {
      "epoch": 13.870545073375261,
      "grad_norm": 0.09785880148410797,
      "learning_rate": 0.00025988664655374693,
      "loss": 0.3477,
      "num_input_tokens_seen": 17319016,
      "step": 26465
    },
    {
      "epoch": 13.873165618448636,
      "grad_norm": 0.17796988785266876,
      "learning_rate": 0.00025968608129380455,
      "loss": 0.4176,
      "num_input_tokens_seen": 17323496,
      "step": 26470
    },
    {
      "epoch": 13.875786163522012,
      "grad_norm": 0.2418033480644226,
      "learning_rate": 0.00025948556630479234,
      "loss": 0.4119,
      "num_input_tokens_seen": 17325992,
      "step": 26475
    },
    {
      "epoch": 13.878406708595389,
      "grad_norm": 0.15680262446403503,
      "learning_rate": 0.0002592851016286557,
      "loss": 0.4818,
      "num_input_tokens_seen": 17328488,
      "step": 26480
    },
    {
      "epoch": 13.881027253668764,
      "grad_norm": 0.11120899766683578,
      "learning_rate": 0.0002590846873073298,
      "loss": 0.5572,
      "num_input_tokens_seen": 17331144,
      "step": 26485
    },
    {
      "epoch": 13.883647798742139,
      "grad_norm": 0.06851037591695786,
      "learning_rate": 0.0002588843233827387,
      "loss": 0.334,
      "num_input_tokens_seen": 17335592,
      "step": 26490
    },
    {
      "epoch": 13.886268343815514,
      "grad_norm": 0.15652349591255188,
      "learning_rate": 0.0002586840098967963,
      "loss": 0.4818,
      "num_input_tokens_seen": 17338856,
      "step": 26495
    },
    {
      "epoch": 13.88888888888889,
      "grad_norm": 0.16419292986392975,
      "learning_rate": 0.00025848374689140587,
      "loss": 0.4902,
      "num_input_tokens_seen": 17342664,
      "step": 26500
    },
    {
      "epoch": 13.891509433962264,
      "grad_norm": 0.12703362107276917,
      "learning_rate": 0.0002582835344084602,
      "loss": 0.4945,
      "num_input_tokens_seen": 17346120,
      "step": 26505
    },
    {
      "epoch": 13.89412997903564,
      "grad_norm": 0.2572115957736969,
      "learning_rate": 0.00025808337248984175,
      "loss": 0.4947,
      "num_input_tokens_seen": 17349864,
      "step": 26510
    },
    {
      "epoch": 13.896750524109015,
      "grad_norm": 0.15983565151691437,
      "learning_rate": 0.00025788326117742185,
      "loss": 0.4545,
      "num_input_tokens_seen": 17352808,
      "step": 26515
    },
    {
      "epoch": 13.89937106918239,
      "grad_norm": 0.23601092398166656,
      "learning_rate": 0.00025768320051306127,
      "loss": 0.6715,
      "num_input_tokens_seen": 17356232,
      "step": 26520
    },
    {
      "epoch": 13.901991614255765,
      "grad_norm": 0.11509646475315094,
      "learning_rate": 0.00025748319053861063,
      "loss": 0.509,
      "num_input_tokens_seen": 17359272,
      "step": 26525
    },
    {
      "epoch": 13.90461215932914,
      "grad_norm": 0.10359048843383789,
      "learning_rate": 0.0002572832312959098,
      "loss": 0.4477,
      "num_input_tokens_seen": 17363880,
      "step": 26530
    },
    {
      "epoch": 13.907232704402515,
      "grad_norm": 0.15654556453227997,
      "learning_rate": 0.0002570833228267879,
      "loss": 0.4029,
      "num_input_tokens_seen": 17366600,
      "step": 26535
    },
    {
      "epoch": 13.90985324947589,
      "grad_norm": 0.13059891760349274,
      "learning_rate": 0.00025688346517306366,
      "loss": 0.434,
      "num_input_tokens_seen": 17369544,
      "step": 26540
    },
    {
      "epoch": 13.912473794549266,
      "grad_norm": 0.1072772964835167,
      "learning_rate": 0.00025668365837654497,
      "loss": 0.4187,
      "num_input_tokens_seen": 17372360,
      "step": 26545
    },
    {
      "epoch": 13.915094339622641,
      "grad_norm": 0.3305440843105316,
      "learning_rate": 0.0002564839024790288,
      "loss": 0.4646,
      "num_input_tokens_seen": 17375112,
      "step": 26550
    },
    {
      "epoch": 13.917714884696016,
      "grad_norm": 0.1265411376953125,
      "learning_rate": 0.000256284197522302,
      "loss": 0.3571,
      "num_input_tokens_seen": 17378024,
      "step": 26555
    },
    {
      "epoch": 13.920335429769391,
      "grad_norm": 0.15760110318660736,
      "learning_rate": 0.00025608454354814075,
      "loss": 0.3342,
      "num_input_tokens_seen": 17380744,
      "step": 26560
    },
    {
      "epoch": 13.922955974842766,
      "grad_norm": 0.09207526594400406,
      "learning_rate": 0.0002558849405983104,
      "loss": 0.433,
      "num_input_tokens_seen": 17383560,
      "step": 26565
    },
    {
      "epoch": 13.925576519916142,
      "grad_norm": 0.12915658950805664,
      "learning_rate": 0.00025568538871456527,
      "loss": 0.3967,
      "num_input_tokens_seen": 17386344,
      "step": 26570
    },
    {
      "epoch": 13.928197064989519,
      "grad_norm": 0.16374464333057404,
      "learning_rate": 0.00025548588793864976,
      "loss": 0.5347,
      "num_input_tokens_seen": 17389416,
      "step": 26575
    },
    {
      "epoch": 13.930817610062894,
      "grad_norm": 0.13835680484771729,
      "learning_rate": 0.0002552864383122967,
      "loss": 0.395,
      "num_input_tokens_seen": 17392264,
      "step": 26580
    },
    {
      "epoch": 13.933438155136269,
      "grad_norm": 0.16632609069347382,
      "learning_rate": 0.0002550870398772289,
      "loss": 0.4153,
      "num_input_tokens_seen": 17395720,
      "step": 26585
    },
    {
      "epoch": 13.936058700209644,
      "grad_norm": 0.09167405962944031,
      "learning_rate": 0.0002548876926751584,
      "loss": 0.3723,
      "num_input_tokens_seen": 17398568,
      "step": 26590
    },
    {
      "epoch": 13.93867924528302,
      "grad_norm": 0.2216796725988388,
      "learning_rate": 0.0002546883967477861,
      "loss": 0.3379,
      "num_input_tokens_seen": 17401160,
      "step": 26595
    },
    {
      "epoch": 13.941299790356394,
      "grad_norm": 0.16071532666683197,
      "learning_rate": 0.00025448915213680245,
      "loss": 0.48,
      "num_input_tokens_seen": 17404232,
      "step": 26600
    },
    {
      "epoch": 13.94392033542977,
      "grad_norm": 0.10807877033948898,
      "learning_rate": 0.0002542899588838875,
      "loss": 0.2937,
      "num_input_tokens_seen": 17407368,
      "step": 26605
    },
    {
      "epoch": 13.946540880503145,
      "grad_norm": 0.10057994723320007,
      "learning_rate": 0.0002540908170307097,
      "loss": 0.4219,
      "num_input_tokens_seen": 17410888,
      "step": 26610
    },
    {
      "epoch": 13.94916142557652,
      "grad_norm": 0.10449956357479095,
      "learning_rate": 0.00025389172661892753,
      "loss": 0.4519,
      "num_input_tokens_seen": 17413896,
      "step": 26615
    },
    {
      "epoch": 13.951781970649895,
      "grad_norm": 0.11439041048288345,
      "learning_rate": 0.00025369268769018856,
      "loss": 0.5492,
      "num_input_tokens_seen": 17417416,
      "step": 26620
    },
    {
      "epoch": 13.95440251572327,
      "grad_norm": 0.10481590032577515,
      "learning_rate": 0.00025349370028612914,
      "loss": 0.3735,
      "num_input_tokens_seen": 17420616,
      "step": 26625
    },
    {
      "epoch": 13.957023060796645,
      "grad_norm": 0.11719974130392075,
      "learning_rate": 0.0002532947644483755,
      "loss": 0.4483,
      "num_input_tokens_seen": 17424008,
      "step": 26630
    },
    {
      "epoch": 13.95964360587002,
      "grad_norm": 0.38113200664520264,
      "learning_rate": 0.00025309588021854237,
      "loss": 0.5691,
      "num_input_tokens_seen": 17427272,
      "step": 26635
    },
    {
      "epoch": 13.962264150943396,
      "grad_norm": 0.15563462674617767,
      "learning_rate": 0.0002528970476382343,
      "loss": 0.422,
      "num_input_tokens_seen": 17430408,
      "step": 26640
    },
    {
      "epoch": 13.964884696016771,
      "grad_norm": 0.11896920204162598,
      "learning_rate": 0.00025269826674904493,
      "loss": 0.438,
      "num_input_tokens_seen": 17433192,
      "step": 26645
    },
    {
      "epoch": 13.967505241090146,
      "grad_norm": 0.16293075680732727,
      "learning_rate": 0.0002524995375925566,
      "loss": 0.3473,
      "num_input_tokens_seen": 17436232,
      "step": 26650
    },
    {
      "epoch": 13.970125786163521,
      "grad_norm": 0.1548382192850113,
      "learning_rate": 0.0002523008602103414,
      "loss": 0.4952,
      "num_input_tokens_seen": 17439688,
      "step": 26655
    },
    {
      "epoch": 13.972746331236896,
      "grad_norm": 0.19193635880947113,
      "learning_rate": 0.00025210223464396055,
      "loss": 0.4506,
      "num_input_tokens_seen": 17442088,
      "step": 26660
    },
    {
      "epoch": 13.975366876310272,
      "grad_norm": 0.07360346615314484,
      "learning_rate": 0.00025190366093496376,
      "loss": 0.4568,
      "num_input_tokens_seen": 17445960,
      "step": 26665
    },
    {
      "epoch": 13.977987421383649,
      "grad_norm": 0.08266898989677429,
      "learning_rate": 0.0002517051391248909,
      "loss": 0.4569,
      "num_input_tokens_seen": 17449096,
      "step": 26670
    },
    {
      "epoch": 13.980607966457024,
      "grad_norm": 0.08478239923715591,
      "learning_rate": 0.0002515066692552701,
      "loss": 0.4694,
      "num_input_tokens_seen": 17452744,
      "step": 26675
    },
    {
      "epoch": 13.983228511530399,
      "grad_norm": 0.1717175990343094,
      "learning_rate": 0.00025130825136761916,
      "loss": 0.4794,
      "num_input_tokens_seen": 17456872,
      "step": 26680
    },
    {
      "epoch": 13.985849056603774,
      "grad_norm": 0.12846218049526215,
      "learning_rate": 0.0002511098855034447,
      "loss": 0.4159,
      "num_input_tokens_seen": 17460008,
      "step": 26685
    },
    {
      "epoch": 13.98846960167715,
      "grad_norm": 0.11544539779424667,
      "learning_rate": 0.00025091157170424296,
      "loss": 0.3556,
      "num_input_tokens_seen": 17463336,
      "step": 26690
    },
    {
      "epoch": 13.991090146750524,
      "grad_norm": 0.16739557683467865,
      "learning_rate": 0.0002507133100114984,
      "loss": 0.445,
      "num_input_tokens_seen": 17465960,
      "step": 26695
    },
    {
      "epoch": 13.9937106918239,
      "grad_norm": 0.10251481086015701,
      "learning_rate": 0.0002505151004666857,
      "loss": 0.4385,
      "num_input_tokens_seen": 17469448,
      "step": 26700
    },
    {
      "epoch": 13.996331236897275,
      "grad_norm": 0.1380981057882309,
      "learning_rate": 0.0002503169431112674,
      "loss": 0.4509,
      "num_input_tokens_seen": 17473128,
      "step": 26705
    },
    {
      "epoch": 13.99895178197065,
      "grad_norm": 0.16313503682613373,
      "learning_rate": 0.0002501188379866961,
      "loss": 0.5087,
      "num_input_tokens_seen": 17476616,
      "step": 26710
    },
    {
      "epoch": 14.0,
      "eval_loss": 0.45100951194763184,
      "eval_runtime": 13.3388,
      "eval_samples_per_second": 63.574,
      "eval_steps_per_second": 15.893,
      "num_input_tokens_seen": 17477224,
      "step": 26712
    },
    {
      "epoch": 14.001572327044025,
      "grad_norm": 0.12195049971342087,
      "learning_rate": 0.0002499207851344133,
      "loss": 0.3983,
      "num_input_tokens_seen": 17479176,
      "step": 26715
    },
    {
      "epoch": 14.0041928721174,
      "grad_norm": 0.11459603160619736,
      "learning_rate": 0.00024972278459584903,
      "loss": 0.4269,
      "num_input_tokens_seen": 17482760,
      "step": 26720
    },
    {
      "epoch": 14.006813417190775,
      "grad_norm": 0.0939331129193306,
      "learning_rate": 0.00024952483641242304,
      "loss": 0.5104,
      "num_input_tokens_seen": 17485992,
      "step": 26725
    },
    {
      "epoch": 14.00943396226415,
      "grad_norm": 0.12706317007541656,
      "learning_rate": 0.0002493269406255435,
      "loss": 0.3873,
      "num_input_tokens_seen": 17488712,
      "step": 26730
    },
    {
      "epoch": 14.012054507337526,
      "grad_norm": 0.11447414755821228,
      "learning_rate": 0.0002491290972766082,
      "loss": 0.6618,
      "num_input_tokens_seen": 17491784,
      "step": 26735
    },
    {
      "epoch": 14.014675052410901,
      "grad_norm": 0.20315168797969818,
      "learning_rate": 0.0002489313064070037,
      "loss": 0.3989,
      "num_input_tokens_seen": 17495368,
      "step": 26740
    },
    {
      "epoch": 14.017295597484276,
      "grad_norm": 0.10444781184196472,
      "learning_rate": 0.00024873356805810566,
      "loss": 0.3383,
      "num_input_tokens_seen": 17499272,
      "step": 26745
    },
    {
      "epoch": 14.019916142557651,
      "grad_norm": 0.13244201242923737,
      "learning_rate": 0.00024853588227127864,
      "loss": 0.5207,
      "num_input_tokens_seen": 17502728,
      "step": 26750
    },
    {
      "epoch": 14.022536687631026,
      "grad_norm": 0.19183659553527832,
      "learning_rate": 0.000248338249087876,
      "loss": 0.5477,
      "num_input_tokens_seen": 17506984,
      "step": 26755
    },
    {
      "epoch": 14.025157232704403,
      "grad_norm": 0.08268137276172638,
      "learning_rate": 0.0002481406685492405,
      "loss": 0.6005,
      "num_input_tokens_seen": 17511848,
      "step": 26760
    },
    {
      "epoch": 14.027777777777779,
      "grad_norm": 0.12022993713617325,
      "learning_rate": 0.00024794314069670383,
      "loss": 0.4566,
      "num_input_tokens_seen": 17514696,
      "step": 26765
    },
    {
      "epoch": 14.030398322851154,
      "grad_norm": 0.11384174972772598,
      "learning_rate": 0.0002477456655715865,
      "loss": 0.4004,
      "num_input_tokens_seen": 17517352,
      "step": 26770
    },
    {
      "epoch": 14.033018867924529,
      "grad_norm": 0.07597137987613678,
      "learning_rate": 0.0002475482432151982,
      "loss": 0.4213,
      "num_input_tokens_seen": 17520872,
      "step": 26775
    },
    {
      "epoch": 14.035639412997904,
      "grad_norm": 0.11973165720701218,
      "learning_rate": 0.00024735087366883733,
      "loss": 0.3303,
      "num_input_tokens_seen": 17523880,
      "step": 26780
    },
    {
      "epoch": 14.03825995807128,
      "grad_norm": 0.07038304954767227,
      "learning_rate": 0.00024715355697379115,
      "loss": 0.3574,
      "num_input_tokens_seen": 17527016,
      "step": 26785
    },
    {
      "epoch": 14.040880503144654,
      "grad_norm": 0.4416401982307434,
      "learning_rate": 0.0002469562931713362,
      "loss": 0.5115,
      "num_input_tokens_seen": 17531688,
      "step": 26790
    },
    {
      "epoch": 14.04350104821803,
      "grad_norm": 0.13172993063926697,
      "learning_rate": 0.00024675908230273785,
      "loss": 0.34,
      "num_input_tokens_seen": 17534760,
      "step": 26795
    },
    {
      "epoch": 14.046121593291405,
      "grad_norm": 0.15443800389766693,
      "learning_rate": 0.00024656192440925055,
      "loss": 0.4742,
      "num_input_tokens_seen": 17537672,
      "step": 26800
    },
    {
      "epoch": 14.04874213836478,
      "grad_norm": 0.18449538946151733,
      "learning_rate": 0.0002463648195321173,
      "loss": 0.3914,
      "num_input_tokens_seen": 17541480,
      "step": 26805
    },
    {
      "epoch": 14.051362683438155,
      "grad_norm": 0.09662669152021408,
      "learning_rate": 0.00024616776771257,
      "loss": 0.3,
      "num_input_tokens_seen": 17544040,
      "step": 26810
    },
    {
      "epoch": 14.05398322851153,
      "grad_norm": 0.11305341869592667,
      "learning_rate": 0.00024597076899182977,
      "loss": 0.3382,
      "num_input_tokens_seen": 17546376,
      "step": 26815
    },
    {
      "epoch": 14.056603773584905,
      "grad_norm": 0.15111927688121796,
      "learning_rate": 0.0002457738234111066,
      "loss": 0.3642,
      "num_input_tokens_seen": 17549576,
      "step": 26820
    },
    {
      "epoch": 14.05922431865828,
      "grad_norm": 0.09938634186983109,
      "learning_rate": 0.00024557693101159937,
      "loss": 0.3783,
      "num_input_tokens_seen": 17552776,
      "step": 26825
    },
    {
      "epoch": 14.061844863731656,
      "grad_norm": 0.13498690724372864,
      "learning_rate": 0.00024538009183449553,
      "loss": 0.4635,
      "num_input_tokens_seen": 17556328,
      "step": 26830
    },
    {
      "epoch": 14.064465408805031,
      "grad_norm": 0.16178485751152039,
      "learning_rate": 0.0002451833059209715,
      "loss": 0.7311,
      "num_input_tokens_seen": 17559144,
      "step": 26835
    },
    {
      "epoch": 14.067085953878406,
      "grad_norm": 0.19940266013145447,
      "learning_rate": 0.00024498657331219274,
      "loss": 0.5464,
      "num_input_tokens_seen": 17561960,
      "step": 26840
    },
    {
      "epoch": 14.069706498951781,
      "grad_norm": 0.09297984838485718,
      "learning_rate": 0.0002447898940493135,
      "loss": 0.4989,
      "num_input_tokens_seen": 17565480,
      "step": 26845
    },
    {
      "epoch": 14.072327044025156,
      "grad_norm": 0.1638176143169403,
      "learning_rate": 0.00024459326817347684,
      "loss": 0.4678,
      "num_input_tokens_seen": 17568456,
      "step": 26850
    },
    {
      "epoch": 14.074947589098532,
      "grad_norm": 0.16254042088985443,
      "learning_rate": 0.0002443966957258148,
      "loss": 0.3675,
      "num_input_tokens_seen": 17571336,
      "step": 26855
    },
    {
      "epoch": 14.077568134171909,
      "grad_norm": 0.2344835251569748,
      "learning_rate": 0.000244200176747448,
      "loss": 0.6288,
      "num_input_tokens_seen": 17577576,
      "step": 26860
    },
    {
      "epoch": 14.080188679245284,
      "grad_norm": 0.1027589961886406,
      "learning_rate": 0.00024400371127948568,
      "loss": 0.3704,
      "num_input_tokens_seen": 17581352,
      "step": 26865
    },
    {
      "epoch": 14.082809224318659,
      "grad_norm": 0.11638332903385162,
      "learning_rate": 0.00024380729936302636,
      "loss": 0.5144,
      "num_input_tokens_seen": 17584424,
      "step": 26870
    },
    {
      "epoch": 14.085429769392034,
      "grad_norm": 0.08628905564546585,
      "learning_rate": 0.00024361094103915725,
      "loss": 0.4074,
      "num_input_tokens_seen": 17587656,
      "step": 26875
    },
    {
      "epoch": 14.08805031446541,
      "grad_norm": 0.12411049008369446,
      "learning_rate": 0.00024341463634895444,
      "loss": 0.4174,
      "num_input_tokens_seen": 17591528,
      "step": 26880
    },
    {
      "epoch": 14.090670859538784,
      "grad_norm": 0.1360226720571518,
      "learning_rate": 0.0002432183853334824,
      "loss": 0.4595,
      "num_input_tokens_seen": 17594536,
      "step": 26885
    },
    {
      "epoch": 14.09329140461216,
      "grad_norm": 0.11173933744430542,
      "learning_rate": 0.00024302218803379445,
      "loss": 0.4768,
      "num_input_tokens_seen": 17597640,
      "step": 26890
    },
    {
      "epoch": 14.095911949685535,
      "grad_norm": 0.18053530156612396,
      "learning_rate": 0.000242826044490933,
      "loss": 0.4623,
      "num_input_tokens_seen": 17600136,
      "step": 26895
    },
    {
      "epoch": 14.09853249475891,
      "grad_norm": 0.14027710258960724,
      "learning_rate": 0.00024262995474592903,
      "loss": 0.4631,
      "num_input_tokens_seen": 17602856,
      "step": 26900
    },
    {
      "epoch": 14.101153039832285,
      "grad_norm": 0.15349315106868744,
      "learning_rate": 0.0002424339188398025,
      "loss": 0.4065,
      "num_input_tokens_seen": 17606344,
      "step": 26905
    },
    {
      "epoch": 14.10377358490566,
      "grad_norm": 0.19503732025623322,
      "learning_rate": 0.00024223793681356148,
      "loss": 0.4389,
      "num_input_tokens_seen": 17609064,
      "step": 26910
    },
    {
      "epoch": 14.106394129979035,
      "grad_norm": 0.0716487392783165,
      "learning_rate": 0.00024204200870820358,
      "loss": 0.4496,
      "num_input_tokens_seen": 17612456,
      "step": 26915
    },
    {
      "epoch": 14.10901467505241,
      "grad_norm": 0.19195954501628876,
      "learning_rate": 0.0002418461345647143,
      "loss": 0.3429,
      "num_input_tokens_seen": 17616424,
      "step": 26920
    },
    {
      "epoch": 14.111635220125786,
      "grad_norm": 0.2663094997406006,
      "learning_rate": 0.00024165031442406853,
      "loss": 0.4701,
      "num_input_tokens_seen": 17619944,
      "step": 26925
    },
    {
      "epoch": 14.114255765199161,
      "grad_norm": 0.08722472190856934,
      "learning_rate": 0.00024145454832722956,
      "loss": 0.4164,
      "num_input_tokens_seen": 17623368,
      "step": 26930
    },
    {
      "epoch": 14.116876310272536,
      "grad_norm": 0.1700442135334015,
      "learning_rate": 0.00024125883631514967,
      "loss": 0.6053,
      "num_input_tokens_seen": 17626760,
      "step": 26935
    },
    {
      "epoch": 14.119496855345911,
      "grad_norm": 0.16083002090454102,
      "learning_rate": 0.00024106317842876907,
      "loss": 0.5275,
      "num_input_tokens_seen": 17629608,
      "step": 26940
    },
    {
      "epoch": 14.122117400419286,
      "grad_norm": 0.11897437274456024,
      "learning_rate": 0.0002408675747090177,
      "loss": 0.3731,
      "num_input_tokens_seen": 17632072,
      "step": 26945
    },
    {
      "epoch": 14.124737945492662,
      "grad_norm": 0.09964250773191452,
      "learning_rate": 0.00024067202519681313,
      "loss": 0.4241,
      "num_input_tokens_seen": 17635720,
      "step": 26950
    },
    {
      "epoch": 14.127358490566039,
      "grad_norm": 0.12188690155744553,
      "learning_rate": 0.00024047652993306235,
      "loss": 0.4088,
      "num_input_tokens_seen": 17638568,
      "step": 26955
    },
    {
      "epoch": 14.129979035639414,
      "grad_norm": 0.16854558885097504,
      "learning_rate": 0.00024028108895866084,
      "loss": 0.3712,
      "num_input_tokens_seen": 17643080,
      "step": 26960
    },
    {
      "epoch": 14.132599580712789,
      "grad_norm": 0.2273806929588318,
      "learning_rate": 0.00024008570231449239,
      "loss": 0.4091,
      "num_input_tokens_seen": 17646024,
      "step": 26965
    },
    {
      "epoch": 14.135220125786164,
      "grad_norm": 0.12316799908876419,
      "learning_rate": 0.00023989037004142966,
      "loss": 0.4019,
      "num_input_tokens_seen": 17648936,
      "step": 26970
    },
    {
      "epoch": 14.13784067085954,
      "grad_norm": 0.08062518388032913,
      "learning_rate": 0.0002396950921803343,
      "loss": 0.4233,
      "num_input_tokens_seen": 17653160,
      "step": 26975
    },
    {
      "epoch": 14.140461215932914,
      "grad_norm": 0.08883071690797806,
      "learning_rate": 0.0002394998687720557,
      "loss": 0.4835,
      "num_input_tokens_seen": 17657384,
      "step": 26980
    },
    {
      "epoch": 14.14308176100629,
      "grad_norm": 0.15175661444664001,
      "learning_rate": 0.0002393046998574328,
      "loss": 0.45,
      "num_input_tokens_seen": 17660424,
      "step": 26985
    },
    {
      "epoch": 14.145702306079665,
      "grad_norm": 0.11331477761268616,
      "learning_rate": 0.0002391095854772924,
      "loss": 0.4453,
      "num_input_tokens_seen": 17664424,
      "step": 26990
    },
    {
      "epoch": 14.14832285115304,
      "grad_norm": 0.1974533349275589,
      "learning_rate": 0.00023891452567245027,
      "loss": 0.4549,
      "num_input_tokens_seen": 17667368,
      "step": 26995
    },
    {
      "epoch": 14.150943396226415,
      "grad_norm": 0.14131315052509308,
      "learning_rate": 0.00023871952048371093,
      "loss": 0.3992,
      "num_input_tokens_seen": 17670184,
      "step": 27000
    },
    {
      "epoch": 14.15356394129979,
      "grad_norm": 0.17222432792186737,
      "learning_rate": 0.00023852456995186684,
      "loss": 0.4819,
      "num_input_tokens_seen": 17673448,
      "step": 27005
    },
    {
      "epoch": 14.156184486373165,
      "grad_norm": 0.1476648598909378,
      "learning_rate": 0.0002383296741176997,
      "loss": 0.389,
      "num_input_tokens_seen": 17676328,
      "step": 27010
    },
    {
      "epoch": 14.15880503144654,
      "grad_norm": 0.0947977751493454,
      "learning_rate": 0.00023813483302197964,
      "loss": 0.4807,
      "num_input_tokens_seen": 17680232,
      "step": 27015
    },
    {
      "epoch": 14.161425576519916,
      "grad_norm": 0.1395925134420395,
      "learning_rate": 0.00023794004670546476,
      "loss": 0.4382,
      "num_input_tokens_seen": 17683880,
      "step": 27020
    },
    {
      "epoch": 14.164046121593291,
      "grad_norm": 0.11721695214509964,
      "learning_rate": 0.00023774531520890242,
      "loss": 0.5992,
      "num_input_tokens_seen": 17687080,
      "step": 27025
    },
    {
      "epoch": 14.166666666666666,
      "grad_norm": 0.12048593908548355,
      "learning_rate": 0.00023755063857302833,
      "loss": 0.4341,
      "num_input_tokens_seen": 17690344,
      "step": 27030
    },
    {
      "epoch": 14.169287211740041,
      "grad_norm": 0.13969075679779053,
      "learning_rate": 0.00023735601683856628,
      "loss": 0.5083,
      "num_input_tokens_seen": 17695272,
      "step": 27035
    },
    {
      "epoch": 14.171907756813416,
      "grad_norm": 0.12022241950035095,
      "learning_rate": 0.0002371614500462293,
      "loss": 0.3047,
      "num_input_tokens_seen": 17698216,
      "step": 27040
    },
    {
      "epoch": 14.174528301886792,
      "grad_norm": 0.11356806755065918,
      "learning_rate": 0.00023696693823671816,
      "loss": 0.3668,
      "num_input_tokens_seen": 17700968,
      "step": 27045
    },
    {
      "epoch": 14.177148846960169,
      "grad_norm": 0.1298368126153946,
      "learning_rate": 0.00023677248145072272,
      "loss": 0.3398,
      "num_input_tokens_seen": 17703496,
      "step": 27050
    },
    {
      "epoch": 14.179769392033544,
      "grad_norm": 0.0933031439781189,
      "learning_rate": 0.0002365780797289211,
      "loss": 0.3423,
      "num_input_tokens_seen": 17706536,
      "step": 27055
    },
    {
      "epoch": 14.182389937106919,
      "grad_norm": 0.15707708895206451,
      "learning_rate": 0.00023638373311198014,
      "loss": 0.3943,
      "num_input_tokens_seen": 17710376,
      "step": 27060
    },
    {
      "epoch": 14.185010482180294,
      "grad_norm": 0.08784584701061249,
      "learning_rate": 0.00023618944164055468,
      "loss": 0.3663,
      "num_input_tokens_seen": 17713320,
      "step": 27065
    },
    {
      "epoch": 14.18763102725367,
      "grad_norm": 0.10731478780508041,
      "learning_rate": 0.00023599520535528813,
      "loss": 0.4785,
      "num_input_tokens_seen": 17716392,
      "step": 27070
    },
    {
      "epoch": 14.190251572327044,
      "grad_norm": 0.15494327247142792,
      "learning_rate": 0.00023580102429681266,
      "loss": 0.5122,
      "num_input_tokens_seen": 17720488,
      "step": 27075
    },
    {
      "epoch": 14.19287211740042,
      "grad_norm": 0.12417551130056381,
      "learning_rate": 0.00023560689850574885,
      "loss": 0.4503,
      "num_input_tokens_seen": 17724040,
      "step": 27080
    },
    {
      "epoch": 14.195492662473795,
      "grad_norm": 0.15617504715919495,
      "learning_rate": 0.00023541282802270563,
      "loss": 0.5175,
      "num_input_tokens_seen": 17727208,
      "step": 27085
    },
    {
      "epoch": 14.19811320754717,
      "grad_norm": 0.11210497468709946,
      "learning_rate": 0.00023521881288828005,
      "loss": 0.3503,
      "num_input_tokens_seen": 17730504,
      "step": 27090
    },
    {
      "epoch": 14.200733752620545,
      "grad_norm": 0.17402826249599457,
      "learning_rate": 0.00023502485314305828,
      "loss": 0.4126,
      "num_input_tokens_seen": 17733800,
      "step": 27095
    },
    {
      "epoch": 14.20335429769392,
      "grad_norm": 0.1746252179145813,
      "learning_rate": 0.00023483094882761397,
      "loss": 0.5066,
      "num_input_tokens_seen": 17736072,
      "step": 27100
    },
    {
      "epoch": 14.205974842767295,
      "grad_norm": 0.1600688099861145,
      "learning_rate": 0.00023463709998250998,
      "loss": 0.4337,
      "num_input_tokens_seen": 17739336,
      "step": 27105
    },
    {
      "epoch": 14.20859538784067,
      "grad_norm": 0.08790894597768784,
      "learning_rate": 0.00023444330664829728,
      "loss": 0.4605,
      "num_input_tokens_seen": 17743528,
      "step": 27110
    },
    {
      "epoch": 14.211215932914046,
      "grad_norm": 0.16503264009952545,
      "learning_rate": 0.00023424956886551536,
      "loss": 0.3343,
      "num_input_tokens_seen": 17746024,
      "step": 27115
    },
    {
      "epoch": 14.213836477987421,
      "grad_norm": 0.15660987794399261,
      "learning_rate": 0.0002340558866746918,
      "loss": 0.3572,
      "num_input_tokens_seen": 17750088,
      "step": 27120
    },
    {
      "epoch": 14.216457023060796,
      "grad_norm": 0.19066835939884186,
      "learning_rate": 0.0002338622601163425,
      "loss": 0.569,
      "num_input_tokens_seen": 17753224,
      "step": 27125
    },
    {
      "epoch": 14.219077568134171,
      "grad_norm": 0.1140226349234581,
      "learning_rate": 0.00023366868923097213,
      "loss": 0.4731,
      "num_input_tokens_seen": 17756488,
      "step": 27130
    },
    {
      "epoch": 14.221698113207546,
      "grad_norm": 0.15874581038951874,
      "learning_rate": 0.0002334751740590735,
      "loss": 0.4669,
      "num_input_tokens_seen": 17759336,
      "step": 27135
    },
    {
      "epoch": 14.224318658280922,
      "grad_norm": 0.17818540334701538,
      "learning_rate": 0.00023328171464112796,
      "loss": 0.5215,
      "num_input_tokens_seen": 17761672,
      "step": 27140
    },
    {
      "epoch": 14.226939203354299,
      "grad_norm": 0.1989513784646988,
      "learning_rate": 0.00023308831101760485,
      "loss": 0.4591,
      "num_input_tokens_seen": 17764136,
      "step": 27145
    },
    {
      "epoch": 14.229559748427674,
      "grad_norm": 0.12443554401397705,
      "learning_rate": 0.00023289496322896174,
      "loss": 0.406,
      "num_input_tokens_seen": 17767048,
      "step": 27150
    },
    {
      "epoch": 14.232180293501049,
      "grad_norm": 0.07511474192142487,
      "learning_rate": 0.00023270167131564512,
      "loss": 0.4929,
      "num_input_tokens_seen": 17770184,
      "step": 27155
    },
    {
      "epoch": 14.234800838574424,
      "grad_norm": 0.167433500289917,
      "learning_rate": 0.0002325084353180893,
      "loss": 0.3758,
      "num_input_tokens_seen": 17772680,
      "step": 27160
    },
    {
      "epoch": 14.2374213836478,
      "grad_norm": 0.17583532631397247,
      "learning_rate": 0.00023231525527671716,
      "loss": 0.4524,
      "num_input_tokens_seen": 17775784,
      "step": 27165
    },
    {
      "epoch": 14.240041928721174,
      "grad_norm": 0.09905353933572769,
      "learning_rate": 0.00023212213123193986,
      "loss": 0.334,
      "num_input_tokens_seen": 17779016,
      "step": 27170
    },
    {
      "epoch": 14.24266247379455,
      "grad_norm": 0.10792902112007141,
      "learning_rate": 0.0002319290632241566,
      "loss": 0.3695,
      "num_input_tokens_seen": 17782248,
      "step": 27175
    },
    {
      "epoch": 14.245283018867925,
      "grad_norm": 0.13083834946155548,
      "learning_rate": 0.0002317360512937548,
      "loss": 0.4819,
      "num_input_tokens_seen": 17785320,
      "step": 27180
    },
    {
      "epoch": 14.2479035639413,
      "grad_norm": 0.198263481259346,
      "learning_rate": 0.00023154309548111058,
      "loss": 0.3976,
      "num_input_tokens_seen": 17788520,
      "step": 27185
    },
    {
      "epoch": 14.250524109014675,
      "grad_norm": 0.09609080851078033,
      "learning_rate": 0.000231350195826588,
      "loss": 0.8408,
      "num_input_tokens_seen": 17792200,
      "step": 27190
    },
    {
      "epoch": 14.25314465408805,
      "grad_norm": 0.09686080366373062,
      "learning_rate": 0.00023115735237053982,
      "loss": 0.3521,
      "num_input_tokens_seen": 17795816,
      "step": 27195
    },
    {
      "epoch": 14.255765199161425,
      "grad_norm": 0.1266903579235077,
      "learning_rate": 0.00023096456515330632,
      "loss": 0.4489,
      "num_input_tokens_seen": 17798568,
      "step": 27200
    },
    {
      "epoch": 14.2583857442348,
      "grad_norm": 0.15752938389778137,
      "learning_rate": 0.0002307718342152163,
      "loss": 0.3707,
      "num_input_tokens_seen": 17801064,
      "step": 27205
    },
    {
      "epoch": 14.261006289308176,
      "grad_norm": 0.14387165009975433,
      "learning_rate": 0.0002305791595965871,
      "loss": 0.4242,
      "num_input_tokens_seen": 17803400,
      "step": 27210
    },
    {
      "epoch": 14.26362683438155,
      "grad_norm": 0.17742043733596802,
      "learning_rate": 0.00023038654133772395,
      "loss": 0.4267,
      "num_input_tokens_seen": 17806696,
      "step": 27215
    },
    {
      "epoch": 14.266247379454926,
      "grad_norm": 0.12125471234321594,
      "learning_rate": 0.00023019397947892062,
      "loss": 0.4803,
      "num_input_tokens_seen": 17810216,
      "step": 27220
    },
    {
      "epoch": 14.268867924528301,
      "grad_norm": 0.17733216285705566,
      "learning_rate": 0.00023000147406045853,
      "loss": 0.5125,
      "num_input_tokens_seen": 17813544,
      "step": 27225
    },
    {
      "epoch": 14.271488469601676,
      "grad_norm": 0.1444365680217743,
      "learning_rate": 0.00022980902512260786,
      "loss": 0.5256,
      "num_input_tokens_seen": 17816712,
      "step": 27230
    },
    {
      "epoch": 14.274109014675052,
      "grad_norm": 0.15925729274749756,
      "learning_rate": 0.00022961663270562656,
      "loss": 0.3144,
      "num_input_tokens_seen": 17819016,
      "step": 27235
    },
    {
      "epoch": 14.276729559748428,
      "grad_norm": 0.12703384459018707,
      "learning_rate": 0.0002294242968497609,
      "loss": 0.5151,
      "num_input_tokens_seen": 17822536,
      "step": 27240
    },
    {
      "epoch": 14.279350104821804,
      "grad_norm": 0.07966597378253937,
      "learning_rate": 0.00022923201759524552,
      "loss": 0.396,
      "num_input_tokens_seen": 17826056,
      "step": 27245
    },
    {
      "epoch": 14.281970649895179,
      "grad_norm": 0.10139580816030502,
      "learning_rate": 0.00022903979498230316,
      "loss": 0.4176,
      "num_input_tokens_seen": 17828712,
      "step": 27250
    },
    {
      "epoch": 14.284591194968554,
      "grad_norm": 0.1622670590877533,
      "learning_rate": 0.00022884762905114436,
      "loss": 0.3993,
      "num_input_tokens_seen": 17832072,
      "step": 27255
    },
    {
      "epoch": 14.28721174004193,
      "grad_norm": 0.10798666626214981,
      "learning_rate": 0.00022865551984196792,
      "loss": 0.4401,
      "num_input_tokens_seen": 17834920,
      "step": 27260
    },
    {
      "epoch": 14.289832285115304,
      "grad_norm": 0.13789118826389313,
      "learning_rate": 0.0002284634673949611,
      "loss": 0.4659,
      "num_input_tokens_seen": 17838568,
      "step": 27265
    },
    {
      "epoch": 14.29245283018868,
      "grad_norm": 0.34580081701278687,
      "learning_rate": 0.00022827147175029906,
      "loss": 0.4183,
      "num_input_tokens_seen": 17842504,
      "step": 27270
    },
    {
      "epoch": 14.295073375262055,
      "grad_norm": 0.14230358600616455,
      "learning_rate": 0.0002280795329481452,
      "loss": 0.5874,
      "num_input_tokens_seen": 17846312,
      "step": 27275
    },
    {
      "epoch": 14.29769392033543,
      "grad_norm": 0.12831686437129974,
      "learning_rate": 0.00022788765102865066,
      "loss": 0.3783,
      "num_input_tokens_seen": 17848424,
      "step": 27280
    },
    {
      "epoch": 14.300314465408805,
      "grad_norm": 0.20700882375240326,
      "learning_rate": 0.00022769582603195533,
      "loss": 0.4368,
      "num_input_tokens_seen": 17851176,
      "step": 27285
    },
    {
      "epoch": 14.30293501048218,
      "grad_norm": 0.1609295904636383,
      "learning_rate": 0.00022750405799818634,
      "loss": 0.3409,
      "num_input_tokens_seen": 17853800,
      "step": 27290
    },
    {
      "epoch": 14.305555555555555,
      "grad_norm": 0.15863050520420074,
      "learning_rate": 0.00022731234696745967,
      "loss": 0.4402,
      "num_input_tokens_seen": 17857160,
      "step": 27295
    },
    {
      "epoch": 14.30817610062893,
      "grad_norm": 0.13088440895080566,
      "learning_rate": 0.0002271206929798792,
      "loss": 0.4615,
      "num_input_tokens_seen": 17860968,
      "step": 27300
    },
    {
      "epoch": 14.310796645702306,
      "grad_norm": 0.17280235886573792,
      "learning_rate": 0.00022692909607553642,
      "loss": 0.5201,
      "num_input_tokens_seen": 17863848,
      "step": 27305
    },
    {
      "epoch": 14.31341719077568,
      "grad_norm": 0.13982148468494415,
      "learning_rate": 0.00022673755629451132,
      "loss": 0.3621,
      "num_input_tokens_seen": 17868616,
      "step": 27310
    },
    {
      "epoch": 14.316037735849056,
      "grad_norm": 0.13376913964748383,
      "learning_rate": 0.00022654607367687213,
      "loss": 0.4086,
      "num_input_tokens_seen": 17871720,
      "step": 27315
    },
    {
      "epoch": 14.318658280922431,
      "grad_norm": 0.12036968022584915,
      "learning_rate": 0.00022635464826267442,
      "loss": 0.4064,
      "num_input_tokens_seen": 17874664,
      "step": 27320
    },
    {
      "epoch": 14.321278825995806,
      "grad_norm": 0.12746237218379974,
      "learning_rate": 0.00022616328009196236,
      "loss": 0.4414,
      "num_input_tokens_seen": 17878184,
      "step": 27325
    },
    {
      "epoch": 14.323899371069182,
      "grad_norm": 0.1847139298915863,
      "learning_rate": 0.0002259719692047682,
      "loss": 0.4205,
      "num_input_tokens_seen": 17881416,
      "step": 27330
    },
    {
      "epoch": 14.326519916142558,
      "grad_norm": 0.1346411406993866,
      "learning_rate": 0.00022578071564111163,
      "loss": 0.5697,
      "num_input_tokens_seen": 17884136,
      "step": 27335
    },
    {
      "epoch": 14.329140461215934,
      "grad_norm": 0.19871890544891357,
      "learning_rate": 0.00022558951944100087,
      "loss": 0.531,
      "num_input_tokens_seen": 17886792,
      "step": 27340
    },
    {
      "epoch": 14.331761006289309,
      "grad_norm": 0.17440564930438995,
      "learning_rate": 0.00022539838064443223,
      "loss": 0.4495,
      "num_input_tokens_seen": 17889864,
      "step": 27345
    },
    {
      "epoch": 14.334381551362684,
      "grad_norm": 0.15446102619171143,
      "learning_rate": 0.00022520729929138933,
      "loss": 0.4132,
      "num_input_tokens_seen": 17893160,
      "step": 27350
    },
    {
      "epoch": 14.33700209643606,
      "grad_norm": 0.13195472955703735,
      "learning_rate": 0.0002250162754218446,
      "loss": 0.5341,
      "num_input_tokens_seen": 17896360,
      "step": 27355
    },
    {
      "epoch": 14.339622641509434,
      "grad_norm": 0.11215343326330185,
      "learning_rate": 0.00022482530907575767,
      "loss": 0.5315,
      "num_input_tokens_seen": 17899208,
      "step": 27360
    },
    {
      "epoch": 14.34224318658281,
      "grad_norm": 0.1349869817495346,
      "learning_rate": 0.00022463440029307674,
      "loss": 0.4014,
      "num_input_tokens_seen": 17901864,
      "step": 27365
    },
    {
      "epoch": 14.344863731656185,
      "grad_norm": 0.1438373625278473,
      "learning_rate": 0.00022444354911373794,
      "loss": 0.3806,
      "num_input_tokens_seen": 17905288,
      "step": 27370
    },
    {
      "epoch": 14.34748427672956,
      "grad_norm": 0.14236025512218475,
      "learning_rate": 0.00022425275557766473,
      "loss": 0.4071,
      "num_input_tokens_seen": 17908104,
      "step": 27375
    },
    {
      "epoch": 14.350104821802935,
      "grad_norm": 0.09293010830879211,
      "learning_rate": 0.00022406201972476937,
      "loss": 0.3839,
      "num_input_tokens_seen": 17912008,
      "step": 27380
    },
    {
      "epoch": 14.35272536687631,
      "grad_norm": 0.14816859364509583,
      "learning_rate": 0.00022387134159495122,
      "loss": 0.3852,
      "num_input_tokens_seen": 17914568,
      "step": 27385
    },
    {
      "epoch": 14.355345911949685,
      "grad_norm": 0.0790812075138092,
      "learning_rate": 0.00022368072122809813,
      "loss": 0.4352,
      "num_input_tokens_seen": 17918536,
      "step": 27390
    },
    {
      "epoch": 14.35796645702306,
      "grad_norm": 0.1246042400598526,
      "learning_rate": 0.0002234901586640858,
      "loss": 0.408,
      "num_input_tokens_seen": 17921320,
      "step": 27395
    },
    {
      "epoch": 14.360587002096436,
      "grad_norm": 0.21364444494247437,
      "learning_rate": 0.00022329965394277785,
      "loss": 0.4573,
      "num_input_tokens_seen": 17924552,
      "step": 27400
    },
    {
      "epoch": 14.36320754716981,
      "grad_norm": 0.15735340118408203,
      "learning_rate": 0.00022310920710402532,
      "loss": 0.5296,
      "num_input_tokens_seen": 17928072,
      "step": 27405
    },
    {
      "epoch": 14.365828092243186,
      "grad_norm": 0.13535113632678986,
      "learning_rate": 0.00022291881818766796,
      "loss": 0.4287,
      "num_input_tokens_seen": 17930408,
      "step": 27410
    },
    {
      "epoch": 14.368448637316561,
      "grad_norm": 0.18473894894123077,
      "learning_rate": 0.00022272848723353252,
      "loss": 0.3767,
      "num_input_tokens_seen": 17933416,
      "step": 27415
    },
    {
      "epoch": 14.371069182389936,
      "grad_norm": 0.12892670929431915,
      "learning_rate": 0.00022253821428143422,
      "loss": 0.4201,
      "num_input_tokens_seen": 17936232,
      "step": 27420
    },
    {
      "epoch": 14.373689727463312,
      "grad_norm": 0.08020507544279099,
      "learning_rate": 0.0002223479993711761,
      "loss": 0.5685,
      "num_input_tokens_seen": 17940648,
      "step": 27425
    },
    {
      "epoch": 14.376310272536688,
      "grad_norm": 0.15019558370113373,
      "learning_rate": 0.00022215784254254906,
      "loss": 0.6463,
      "num_input_tokens_seen": 17943304,
      "step": 27430
    },
    {
      "epoch": 14.378930817610064,
      "grad_norm": 0.21244914829730988,
      "learning_rate": 0.00022196774383533157,
      "loss": 0.4385,
      "num_input_tokens_seen": 17945864,
      "step": 27435
    },
    {
      "epoch": 14.381551362683439,
      "grad_norm": 0.21827426552772522,
      "learning_rate": 0.0002217777032892899,
      "loss": 0.4049,
      "num_input_tokens_seen": 17950152,
      "step": 27440
    },
    {
      "epoch": 14.384171907756814,
      "grad_norm": 0.15119865536689758,
      "learning_rate": 0.00022158772094417863,
      "loss": 0.6024,
      "num_input_tokens_seen": 17954024,
      "step": 27445
    },
    {
      "epoch": 14.38679245283019,
      "grad_norm": 0.09189397841691971,
      "learning_rate": 0.00022139779683973983,
      "loss": 0.3504,
      "num_input_tokens_seen": 17957896,
      "step": 27450
    },
    {
      "epoch": 14.389412997903564,
      "grad_norm": 0.07048536092042923,
      "learning_rate": 0.00022120793101570364,
      "loss": 0.4799,
      "num_input_tokens_seen": 17960936,
      "step": 27455
    },
    {
      "epoch": 14.39203354297694,
      "grad_norm": 0.3469918370246887,
      "learning_rate": 0.00022101812351178762,
      "loss": 0.4215,
      "num_input_tokens_seen": 17963496,
      "step": 27460
    },
    {
      "epoch": 14.394654088050315,
      "grad_norm": 0.19310733675956726,
      "learning_rate": 0.00022082837436769725,
      "loss": 0.5182,
      "num_input_tokens_seen": 17966344,
      "step": 27465
    },
    {
      "epoch": 14.39727463312369,
      "grad_norm": 0.08680233359336853,
      "learning_rate": 0.00022063868362312596,
      "loss": 0.7096,
      "num_input_tokens_seen": 17969640,
      "step": 27470
    },
    {
      "epoch": 14.399895178197065,
      "grad_norm": 0.10508891195058823,
      "learning_rate": 0.00022044905131775495,
      "loss": 0.4334,
      "num_input_tokens_seen": 17973064,
      "step": 27475
    },
    {
      "epoch": 14.40251572327044,
      "grad_norm": 0.0977787896990776,
      "learning_rate": 0.00022025947749125313,
      "loss": 0.3948,
      "num_input_tokens_seen": 17977192,
      "step": 27480
    },
    {
      "epoch": 14.405136268343815,
      "grad_norm": 0.14072947204113007,
      "learning_rate": 0.0002200699621832773,
      "loss": 0.3953,
      "num_input_tokens_seen": 17981160,
      "step": 27485
    },
    {
      "epoch": 14.40775681341719,
      "grad_norm": 0.14890210330486298,
      "learning_rate": 0.0002198805054334718,
      "loss": 0.4008,
      "num_input_tokens_seen": 17984744,
      "step": 27490
    },
    {
      "epoch": 14.410377358490566,
      "grad_norm": 0.11159580945968628,
      "learning_rate": 0.00021969110728146862,
      "loss": 0.502,
      "num_input_tokens_seen": 17988328,
      "step": 27495
    },
    {
      "epoch": 14.41299790356394,
      "grad_norm": 0.18157470226287842,
      "learning_rate": 0.00021950176776688784,
      "loss": 0.3609,
      "num_input_tokens_seen": 17991144,
      "step": 27500
    },
    {
      "epoch": 14.415618448637316,
      "grad_norm": 0.2494361847639084,
      "learning_rate": 0.0002193124869293372,
      "loss": 0.3693,
      "num_input_tokens_seen": 17994344,
      "step": 27505
    },
    {
      "epoch": 14.418238993710691,
      "grad_norm": 0.08260370045900345,
      "learning_rate": 0.00021912326480841223,
      "loss": 0.4276,
      "num_input_tokens_seen": 17997704,
      "step": 27510
    },
    {
      "epoch": 14.420859538784066,
      "grad_norm": 0.11166500300168991,
      "learning_rate": 0.0002189341014436958,
      "loss": 0.3938,
      "num_input_tokens_seen": 18001896,
      "step": 27515
    },
    {
      "epoch": 14.423480083857442,
      "grad_norm": 0.18588073551654816,
      "learning_rate": 0.00021874499687475857,
      "loss": 0.5112,
      "num_input_tokens_seen": 18005288,
      "step": 27520
    },
    {
      "epoch": 14.426100628930818,
      "grad_norm": 0.1256534904241562,
      "learning_rate": 0.00021855595114115935,
      "loss": 0.5394,
      "num_input_tokens_seen": 18008744,
      "step": 27525
    },
    {
      "epoch": 14.428721174004194,
      "grad_norm": 0.114334836602211,
      "learning_rate": 0.00021836696428244418,
      "loss": 0.4699,
      "num_input_tokens_seen": 18012712,
      "step": 27530
    },
    {
      "epoch": 14.431341719077569,
      "grad_norm": 0.12917745113372803,
      "learning_rate": 0.0002181780363381473,
      "loss": 0.4591,
      "num_input_tokens_seen": 18015656,
      "step": 27535
    },
    {
      "epoch": 14.433962264150944,
      "grad_norm": 0.16123275458812714,
      "learning_rate": 0.00021798916734779,
      "loss": 0.5297,
      "num_input_tokens_seen": 18018120,
      "step": 27540
    },
    {
      "epoch": 14.43658280922432,
      "grad_norm": 0.12876883149147034,
      "learning_rate": 0.00021780035735088132,
      "loss": 0.4695,
      "num_input_tokens_seen": 18021736,
      "step": 27545
    },
    {
      "epoch": 14.439203354297694,
      "grad_norm": 0.20565056800842285,
      "learning_rate": 0.0002176116063869184,
      "loss": 0.4096,
      "num_input_tokens_seen": 18024584,
      "step": 27550
    },
    {
      "epoch": 14.44182389937107,
      "grad_norm": 0.2067168951034546,
      "learning_rate": 0.00021742291449538582,
      "loss": 0.4274,
      "num_input_tokens_seen": 18027688,
      "step": 27555
    },
    {
      "epoch": 14.444444444444445,
      "grad_norm": 0.13321907818317413,
      "learning_rate": 0.00021723428171575566,
      "loss": 0.4836,
      "num_input_tokens_seen": 18030568,
      "step": 27560
    },
    {
      "epoch": 14.44706498951782,
      "grad_norm": 0.13591980934143066,
      "learning_rate": 0.00021704570808748802,
      "loss": 0.4187,
      "num_input_tokens_seen": 18033128,
      "step": 27565
    },
    {
      "epoch": 14.449685534591195,
      "grad_norm": 0.15200313925743103,
      "learning_rate": 0.00021685719365003008,
      "loss": 0.4586,
      "num_input_tokens_seen": 18036776,
      "step": 27570
    },
    {
      "epoch": 14.45230607966457,
      "grad_norm": 0.11926660686731339,
      "learning_rate": 0.00021666873844281682,
      "loss": 0.3741,
      "num_input_tokens_seen": 18040392,
      "step": 27575
    },
    {
      "epoch": 14.454926624737945,
      "grad_norm": 0.11256471276283264,
      "learning_rate": 0.0002164803425052711,
      "loss": 0.5762,
      "num_input_tokens_seen": 18043464,
      "step": 27580
    },
    {
      "epoch": 14.45754716981132,
      "grad_norm": 0.0976458340883255,
      "learning_rate": 0.0002162920058768031,
      "loss": 0.4615,
      "num_input_tokens_seen": 18046792,
      "step": 27585
    },
    {
      "epoch": 14.460167714884696,
      "grad_norm": 0.12542997300624847,
      "learning_rate": 0.000216103728596811,
      "loss": 0.3457,
      "num_input_tokens_seen": 18050024,
      "step": 27590
    },
    {
      "epoch": 14.46278825995807,
      "grad_norm": 0.12715952098369598,
      "learning_rate": 0.00021591551070467975,
      "loss": 0.4545,
      "num_input_tokens_seen": 18055624,
      "step": 27595
    },
    {
      "epoch": 14.465408805031446,
      "grad_norm": 0.11969814449548721,
      "learning_rate": 0.0002157273522397829,
      "loss": 0.2896,
      "num_input_tokens_seen": 18060712,
      "step": 27600
    },
    {
      "epoch": 14.468029350104821,
      "grad_norm": 0.11477513611316681,
      "learning_rate": 0.0002155392532414806,
      "loss": 0.5106,
      "num_input_tokens_seen": 18063176,
      "step": 27605
    },
    {
      "epoch": 14.470649895178196,
      "grad_norm": 0.10964879393577576,
      "learning_rate": 0.00021535121374912126,
      "loss": 0.4182,
      "num_input_tokens_seen": 18066696,
      "step": 27610
    },
    {
      "epoch": 14.473270440251572,
      "grad_norm": 0.13998855650424957,
      "learning_rate": 0.00021516323380204073,
      "loss": 0.422,
      "num_input_tokens_seen": 18069640,
      "step": 27615
    },
    {
      "epoch": 14.475890985324948,
      "grad_norm": 0.14698617160320282,
      "learning_rate": 0.00021497531343956188,
      "loss": 0.3886,
      "num_input_tokens_seen": 18072232,
      "step": 27620
    },
    {
      "epoch": 14.478511530398324,
      "grad_norm": 0.25637567043304443,
      "learning_rate": 0.00021478745270099591,
      "loss": 0.4017,
      "num_input_tokens_seen": 18074760,
      "step": 27625
    },
    {
      "epoch": 14.481132075471699,
      "grad_norm": 0.07852165400981903,
      "learning_rate": 0.0002145996516256408,
      "loss": 0.31,
      "num_input_tokens_seen": 18078056,
      "step": 27630
    },
    {
      "epoch": 14.483752620545074,
      "grad_norm": 0.15848283469676971,
      "learning_rate": 0.00021441191025278256,
      "loss": 0.4335,
      "num_input_tokens_seen": 18081672,
      "step": 27635
    },
    {
      "epoch": 14.48637316561845,
      "grad_norm": 0.10073129832744598,
      "learning_rate": 0.00021422422862169455,
      "loss": 0.4538,
      "num_input_tokens_seen": 18085736,
      "step": 27640
    },
    {
      "epoch": 14.488993710691824,
      "grad_norm": 0.15410006046295166,
      "learning_rate": 0.00021403660677163773,
      "loss": 0.4482,
      "num_input_tokens_seen": 18089608,
      "step": 27645
    },
    {
      "epoch": 14.4916142557652,
      "grad_norm": 0.20039542019367218,
      "learning_rate": 0.00021384904474186018,
      "loss": 0.6452,
      "num_input_tokens_seen": 18092424,
      "step": 27650
    },
    {
      "epoch": 14.494234800838575,
      "grad_norm": 0.10519964247941971,
      "learning_rate": 0.00021366154257159808,
      "loss": 0.5514,
      "num_input_tokens_seen": 18095848,
      "step": 27655
    },
    {
      "epoch": 14.49685534591195,
      "grad_norm": 0.1152099147439003,
      "learning_rate": 0.00021347410030007435,
      "loss": 0.4471,
      "num_input_tokens_seen": 18099080,
      "step": 27660
    },
    {
      "epoch": 14.499475890985325,
      "grad_norm": 0.18686619400978088,
      "learning_rate": 0.0002132867179665,
      "loss": 0.3996,
      "num_input_tokens_seen": 18101640,
      "step": 27665
    },
    {
      "epoch": 14.5020964360587,
      "grad_norm": 0.15636496245861053,
      "learning_rate": 0.00021309939561007341,
      "loss": 0.3956,
      "num_input_tokens_seen": 18104840,
      "step": 27670
    },
    {
      "epoch": 14.504716981132075,
      "grad_norm": 0.22181464731693268,
      "learning_rate": 0.00021291213326997998,
      "loss": 0.4325,
      "num_input_tokens_seen": 18107240,
      "step": 27675
    },
    {
      "epoch": 14.50733752620545,
      "grad_norm": 0.15433844923973083,
      "learning_rate": 0.00021272493098539296,
      "loss": 0.5412,
      "num_input_tokens_seen": 18110664,
      "step": 27680
    },
    {
      "epoch": 14.509958071278826,
      "grad_norm": 0.1350679248571396,
      "learning_rate": 0.0002125377887954732,
      "loss": 0.4759,
      "num_input_tokens_seen": 18114120,
      "step": 27685
    },
    {
      "epoch": 14.5125786163522,
      "grad_norm": 0.12981289625167847,
      "learning_rate": 0.00021235070673936824,
      "loss": 0.4842,
      "num_input_tokens_seen": 18117032,
      "step": 27690
    },
    {
      "epoch": 14.515199161425576,
      "grad_norm": 0.11374425888061523,
      "learning_rate": 0.00021216368485621394,
      "loss": 0.4243,
      "num_input_tokens_seen": 18120072,
      "step": 27695
    },
    {
      "epoch": 14.517819706498951,
      "grad_norm": 0.314197838306427,
      "learning_rate": 0.00021197672318513282,
      "loss": 0.5628,
      "num_input_tokens_seen": 18122824,
      "step": 27700
    },
    {
      "epoch": 14.520440251572326,
      "grad_norm": 0.11904338747262955,
      "learning_rate": 0.00021178982176523525,
      "loss": 0.358,
      "num_input_tokens_seen": 18126120,
      "step": 27705
    },
    {
      "epoch": 14.523060796645701,
      "grad_norm": 0.15982280671596527,
      "learning_rate": 0.0002116029806356189,
      "loss": 0.4195,
      "num_input_tokens_seen": 18129320,
      "step": 27710
    },
    {
      "epoch": 14.525681341719078,
      "grad_norm": 0.18112123012542725,
      "learning_rate": 0.00021141619983536893,
      "loss": 0.4516,
      "num_input_tokens_seen": 18132648,
      "step": 27715
    },
    {
      "epoch": 14.528301886792454,
      "grad_norm": 0.156270369887352,
      "learning_rate": 0.00021122947940355747,
      "loss": 0.3796,
      "num_input_tokens_seen": 18135432,
      "step": 27720
    },
    {
      "epoch": 14.530922431865829,
      "grad_norm": 0.1595088541507721,
      "learning_rate": 0.00021104281937924462,
      "loss": 0.4592,
      "num_input_tokens_seen": 18138536,
      "step": 27725
    },
    {
      "epoch": 14.533542976939204,
      "grad_norm": 0.16517233848571777,
      "learning_rate": 0.00021085621980147716,
      "loss": 0.3377,
      "num_input_tokens_seen": 18142568,
      "step": 27730
    },
    {
      "epoch": 14.536163522012579,
      "grad_norm": 0.10718463361263275,
      "learning_rate": 0.00021066968070928982,
      "loss": 0.4678,
      "num_input_tokens_seen": 18145352,
      "step": 27735
    },
    {
      "epoch": 14.538784067085954,
      "grad_norm": 0.1331826001405716,
      "learning_rate": 0.00021048320214170463,
      "loss": 0.4646,
      "num_input_tokens_seen": 18152584,
      "step": 27740
    },
    {
      "epoch": 14.54140461215933,
      "grad_norm": 0.2068747580051422,
      "learning_rate": 0.00021029678413773034,
      "loss": 0.4411,
      "num_input_tokens_seen": 18155624,
      "step": 27745
    },
    {
      "epoch": 14.544025157232705,
      "grad_norm": 0.20706140995025635,
      "learning_rate": 0.0002101104267363639,
      "loss": 0.3913,
      "num_input_tokens_seen": 18158728,
      "step": 27750
    },
    {
      "epoch": 14.54664570230608,
      "grad_norm": 0.15835708379745483,
      "learning_rate": 0.00020992412997658877,
      "loss": 0.3528,
      "num_input_tokens_seen": 18161512,
      "step": 27755
    },
    {
      "epoch": 14.549266247379455,
      "grad_norm": 0.11947744339704514,
      "learning_rate": 0.0002097378938973763,
      "loss": 0.4705,
      "num_input_tokens_seen": 18164616,
      "step": 27760
    },
    {
      "epoch": 14.55188679245283,
      "grad_norm": 0.15845297276973724,
      "learning_rate": 0.0002095517185376849,
      "loss": 0.4681,
      "num_input_tokens_seen": 18167080,
      "step": 27765
    },
    {
      "epoch": 14.554507337526205,
      "grad_norm": 0.09106581658124924,
      "learning_rate": 0.0002093656039364606,
      "loss": 0.3813,
      "num_input_tokens_seen": 18170792,
      "step": 27770
    },
    {
      "epoch": 14.55712788259958,
      "grad_norm": 0.27879559993743896,
      "learning_rate": 0.00020917955013263618,
      "loss": 0.4444,
      "num_input_tokens_seen": 18173960,
      "step": 27775
    },
    {
      "epoch": 14.559748427672956,
      "grad_norm": 0.10120251029729843,
      "learning_rate": 0.00020899355716513186,
      "loss": 0.4564,
      "num_input_tokens_seen": 18177864,
      "step": 27780
    },
    {
      "epoch": 14.56236897274633,
      "grad_norm": 0.11738646775484085,
      "learning_rate": 0.00020880762507285544,
      "loss": 0.4902,
      "num_input_tokens_seen": 18181672,
      "step": 27785
    },
    {
      "epoch": 14.564989517819706,
      "grad_norm": 0.14461550116539001,
      "learning_rate": 0.00020862175389470172,
      "loss": 0.4032,
      "num_input_tokens_seen": 18185000,
      "step": 27790
    },
    {
      "epoch": 14.567610062893081,
      "grad_norm": 0.11324494332075119,
      "learning_rate": 0.00020843594366955288,
      "loss": 0.4009,
      "num_input_tokens_seen": 18188104,
      "step": 27795
    },
    {
      "epoch": 14.570230607966456,
      "grad_norm": 0.06532371044158936,
      "learning_rate": 0.0002082501944362784,
      "loss": 0.4941,
      "num_input_tokens_seen": 18192872,
      "step": 27800
    },
    {
      "epoch": 14.572851153039831,
      "grad_norm": 0.13436636328697205,
      "learning_rate": 0.00020806450623373486,
      "loss": 0.4412,
      "num_input_tokens_seen": 18196040,
      "step": 27805
    },
    {
      "epoch": 14.575471698113208,
      "grad_norm": 0.1119772419333458,
      "learning_rate": 0.00020787887910076586,
      "loss": 0.4036,
      "num_input_tokens_seen": 18199592,
      "step": 27810
    },
    {
      "epoch": 14.578092243186584,
      "grad_norm": 0.09265854209661484,
      "learning_rate": 0.00020769331307620258,
      "loss": 0.4632,
      "num_input_tokens_seen": 18203016,
      "step": 27815
    },
    {
      "epoch": 14.580712788259959,
      "grad_norm": 0.08762266486883163,
      "learning_rate": 0.0002075078081988635,
      "loss": 0.4253,
      "num_input_tokens_seen": 18206152,
      "step": 27820
    },
    {
      "epoch": 14.583333333333334,
      "grad_norm": 0.12541642785072327,
      "learning_rate": 0.00020732236450755415,
      "loss": 0.3494,
      "num_input_tokens_seen": 18209096,
      "step": 27825
    },
    {
      "epoch": 14.585953878406709,
      "grad_norm": 0.09475419670343399,
      "learning_rate": 0.00020713698204106708,
      "loss": 0.411,
      "num_input_tokens_seen": 18212680,
      "step": 27830
    },
    {
      "epoch": 14.588574423480084,
      "grad_norm": 0.11590734869241714,
      "learning_rate": 0.00020695166083818206,
      "loss": 0.3856,
      "num_input_tokens_seen": 18215720,
      "step": 27835
    },
    {
      "epoch": 14.59119496855346,
      "grad_norm": 0.13468408584594727,
      "learning_rate": 0.0002067664009376663,
      "loss": 0.4225,
      "num_input_tokens_seen": 18218888,
      "step": 27840
    },
    {
      "epoch": 14.593815513626835,
      "grad_norm": 0.12645438313484192,
      "learning_rate": 0.0002065812023782741,
      "loss": 0.371,
      "num_input_tokens_seen": 18221768,
      "step": 27845
    },
    {
      "epoch": 14.59643605870021,
      "grad_norm": 0.17919188737869263,
      "learning_rate": 0.00020639606519874703,
      "loss": 0.3973,
      "num_input_tokens_seen": 18225640,
      "step": 27850
    },
    {
      "epoch": 14.599056603773585,
      "grad_norm": 0.07702888548374176,
      "learning_rate": 0.00020621098943781352,
      "loss": 0.4907,
      "num_input_tokens_seen": 18229928,
      "step": 27855
    },
    {
      "epoch": 14.60167714884696,
      "grad_norm": 0.19043877720832825,
      "learning_rate": 0.0002060259751341891,
      "loss": 0.5488,
      "num_input_tokens_seen": 18232840,
      "step": 27860
    },
    {
      "epoch": 14.604297693920335,
      "grad_norm": 0.1503378301858902,
      "learning_rate": 0.00020584102232657688,
      "loss": 0.439,
      "num_input_tokens_seen": 18236200,
      "step": 27865
    },
    {
      "epoch": 14.60691823899371,
      "grad_norm": 0.13606373965740204,
      "learning_rate": 0.0002056561310536668,
      "loss": 0.4591,
      "num_input_tokens_seen": 18240072,
      "step": 27870
    },
    {
      "epoch": 14.609538784067086,
      "grad_norm": 0.12298115342855453,
      "learning_rate": 0.0002054713013541361,
      "loss": 0.463,
      "num_input_tokens_seen": 18243464,
      "step": 27875
    },
    {
      "epoch": 14.61215932914046,
      "grad_norm": 0.10279247909784317,
      "learning_rate": 0.00020528653326664915,
      "loss": 0.5034,
      "num_input_tokens_seen": 18246088,
      "step": 27880
    },
    {
      "epoch": 14.614779874213836,
      "grad_norm": 0.15830804407596588,
      "learning_rate": 0.00020510182682985717,
      "loss": 0.4222,
      "num_input_tokens_seen": 18249512,
      "step": 27885
    },
    {
      "epoch": 14.617400419287211,
      "grad_norm": 0.14986729621887207,
      "learning_rate": 0.00020491718208239847,
      "loss": 0.5149,
      "num_input_tokens_seen": 18252328,
      "step": 27890
    },
    {
      "epoch": 14.620020964360586,
      "grad_norm": 0.12926506996154785,
      "learning_rate": 0.00020473259906289877,
      "loss": 0.3695,
      "num_input_tokens_seen": 18256168,
      "step": 27895
    },
    {
      "epoch": 14.622641509433961,
      "grad_norm": 0.16258405148983002,
      "learning_rate": 0.00020454807780997077,
      "loss": 0.5561,
      "num_input_tokens_seen": 18259208,
      "step": 27900
    },
    {
      "epoch": 14.625262054507338,
      "grad_norm": 0.18840822577476501,
      "learning_rate": 0.0002043636183622144,
      "loss": 0.4354,
      "num_input_tokens_seen": 18261992,
      "step": 27905
    },
    {
      "epoch": 14.627882599580714,
      "grad_norm": 0.11232330650091171,
      "learning_rate": 0.00020417922075821626,
      "loss": 0.4558,
      "num_input_tokens_seen": 18265384,
      "step": 27910
    },
    {
      "epoch": 14.630503144654089,
      "grad_norm": 0.10038485378026962,
      "learning_rate": 0.00020399488503655005,
      "loss": 0.458,
      "num_input_tokens_seen": 18268008,
      "step": 27915
    },
    {
      "epoch": 14.633123689727464,
      "grad_norm": 0.13287030160427094,
      "learning_rate": 0.00020381061123577688,
      "loss": 0.5389,
      "num_input_tokens_seen": 18270920,
      "step": 27920
    },
    {
      "epoch": 14.635744234800839,
      "grad_norm": 0.12658730149269104,
      "learning_rate": 0.00020362639939444473,
      "loss": 0.2904,
      "num_input_tokens_seen": 18275112,
      "step": 27925
    },
    {
      "epoch": 14.638364779874214,
      "grad_norm": 0.12582530081272125,
      "learning_rate": 0.0002034422495510888,
      "loss": 0.3224,
      "num_input_tokens_seen": 18278888,
      "step": 27930
    },
    {
      "epoch": 14.64098532494759,
      "grad_norm": 0.11938361823558807,
      "learning_rate": 0.00020325816174423077,
      "loss": 0.3705,
      "num_input_tokens_seen": 18281768,
      "step": 27935
    },
    {
      "epoch": 14.643605870020965,
      "grad_norm": 0.15203730762004852,
      "learning_rate": 0.00020307413601238012,
      "loss": 0.4412,
      "num_input_tokens_seen": 18284360,
      "step": 27940
    },
    {
      "epoch": 14.64622641509434,
      "grad_norm": 0.19507063925266266,
      "learning_rate": 0.00020289017239403246,
      "loss": 0.4701,
      "num_input_tokens_seen": 18287048,
      "step": 27945
    },
    {
      "epoch": 14.648846960167715,
      "grad_norm": 0.17712318897247314,
      "learning_rate": 0.0002027062709276712,
      "loss": 0.5645,
      "num_input_tokens_seen": 18289672,
      "step": 27950
    },
    {
      "epoch": 14.65146750524109,
      "grad_norm": 0.10269314050674438,
      "learning_rate": 0.00020252243165176632,
      "loss": 0.5329,
      "num_input_tokens_seen": 18293096,
      "step": 27955
    },
    {
      "epoch": 14.654088050314465,
      "grad_norm": 0.06690116971731186,
      "learning_rate": 0.00020233865460477508,
      "loss": 0.3549,
      "num_input_tokens_seen": 18297608,
      "step": 27960
    },
    {
      "epoch": 14.65670859538784,
      "grad_norm": 0.13379186391830444,
      "learning_rate": 0.00020215493982514128,
      "loss": 0.4214,
      "num_input_tokens_seen": 18301352,
      "step": 27965
    },
    {
      "epoch": 14.659329140461216,
      "grad_norm": 0.18198168277740479,
      "learning_rate": 0.00020197128735129622,
      "loss": 0.389,
      "num_input_tokens_seen": 18304552,
      "step": 27970
    },
    {
      "epoch": 14.66194968553459,
      "grad_norm": 0.09952609986066818,
      "learning_rate": 0.0002017876972216575,
      "loss": 0.3399,
      "num_input_tokens_seen": 18307400,
      "step": 27975
    },
    {
      "epoch": 14.664570230607966,
      "grad_norm": 0.29340648651123047,
      "learning_rate": 0.00020160416947463046,
      "loss": 0.8381,
      "num_input_tokens_seen": 18311432,
      "step": 27980
    },
    {
      "epoch": 14.667190775681341,
      "grad_norm": 0.1236952543258667,
      "learning_rate": 0.00020142070414860702,
      "loss": 0.3932,
      "num_input_tokens_seen": 18315720,
      "step": 27985
    },
    {
      "epoch": 14.669811320754716,
      "grad_norm": 0.09148979932069778,
      "learning_rate": 0.0002012373012819657,
      "loss": 0.4389,
      "num_input_tokens_seen": 18318952,
      "step": 27990
    },
    {
      "epoch": 14.672431865828091,
      "grad_norm": 0.4058469235897064,
      "learning_rate": 0.00020105396091307247,
      "loss": 0.4553,
      "num_input_tokens_seen": 18322856,
      "step": 27995
    },
    {
      "epoch": 14.675052410901468,
      "grad_norm": 0.07855154573917389,
      "learning_rate": 0.0002008706830802803,
      "loss": 0.3718,
      "num_input_tokens_seen": 18326248,
      "step": 28000
    },
    {
      "epoch": 14.677672955974844,
      "grad_norm": 0.1526443064212799,
      "learning_rate": 0.00020068746782192837,
      "loss": 0.5209,
      "num_input_tokens_seen": 18329704,
      "step": 28005
    },
    {
      "epoch": 14.680293501048219,
      "grad_norm": 0.14942049980163574,
      "learning_rate": 0.00020050431517634366,
      "loss": 0.4824,
      "num_input_tokens_seen": 18333160,
      "step": 28010
    },
    {
      "epoch": 14.682914046121594,
      "grad_norm": 0.2506997585296631,
      "learning_rate": 0.00020032122518183915,
      "loss": 0.5438,
      "num_input_tokens_seen": 18336232,
      "step": 28015
    },
    {
      "epoch": 14.685534591194969,
      "grad_norm": 0.2898440957069397,
      "learning_rate": 0.00020013819787671538,
      "loss": 0.3606,
      "num_input_tokens_seen": 18339304,
      "step": 28020
    },
    {
      "epoch": 14.688155136268344,
      "grad_norm": 0.12475880235433578,
      "learning_rate": 0.00019995523329925985,
      "loss": 0.4177,
      "num_input_tokens_seen": 18342536,
      "step": 28025
    },
    {
      "epoch": 14.69077568134172,
      "grad_norm": 0.14942559599876404,
      "learning_rate": 0.00019977233148774627,
      "loss": 0.3867,
      "num_input_tokens_seen": 18345448,
      "step": 28030
    },
    {
      "epoch": 14.693396226415095,
      "grad_norm": 0.11848177015781403,
      "learning_rate": 0.00019958949248043573,
      "loss": 0.3824,
      "num_input_tokens_seen": 18348296,
      "step": 28035
    },
    {
      "epoch": 14.69601677148847,
      "grad_norm": 0.1417890042066574,
      "learning_rate": 0.00019940671631557628,
      "loss": 0.4987,
      "num_input_tokens_seen": 18351656,
      "step": 28040
    },
    {
      "epoch": 14.698637316561845,
      "grad_norm": 0.15626859664916992,
      "learning_rate": 0.0001992240030314022,
      "loss": 0.478,
      "num_input_tokens_seen": 18355016,
      "step": 28045
    },
    {
      "epoch": 14.70125786163522,
      "grad_norm": 0.08239704370498657,
      "learning_rate": 0.00019904135266613532,
      "loss": 0.5392,
      "num_input_tokens_seen": 18357800,
      "step": 28050
    },
    {
      "epoch": 14.703878406708595,
      "grad_norm": 0.1651085913181305,
      "learning_rate": 0.00019885876525798407,
      "loss": 0.5356,
      "num_input_tokens_seen": 18360904,
      "step": 28055
    },
    {
      "epoch": 14.70649895178197,
      "grad_norm": 0.12119092792272568,
      "learning_rate": 0.0001986762408451434,
      "loss": 0.4902,
      "num_input_tokens_seen": 18363528,
      "step": 28060
    },
    {
      "epoch": 14.709119496855346,
      "grad_norm": 0.08497855812311172,
      "learning_rate": 0.00019849377946579562,
      "loss": 0.4144,
      "num_input_tokens_seen": 18367688,
      "step": 28065
    },
    {
      "epoch": 14.71174004192872,
      "grad_norm": 0.09907523542642593,
      "learning_rate": 0.00019831138115810926,
      "loss": 0.5156,
      "num_input_tokens_seen": 18370824,
      "step": 28070
    },
    {
      "epoch": 14.714360587002096,
      "grad_norm": 0.12035781890153885,
      "learning_rate": 0.00019812904596024005,
      "loss": 0.411,
      "num_input_tokens_seen": 18373320,
      "step": 28075
    },
    {
      "epoch": 14.716981132075471,
      "grad_norm": 0.25713178515434265,
      "learning_rate": 0.00019794677391033055,
      "loss": 0.5348,
      "num_input_tokens_seen": 18376360,
      "step": 28080
    },
    {
      "epoch": 14.719601677148846,
      "grad_norm": 0.10027241706848145,
      "learning_rate": 0.00019776456504651014,
      "loss": 0.5022,
      "num_input_tokens_seen": 18382984,
      "step": 28085
    },
    {
      "epoch": 14.722222222222221,
      "grad_norm": 0.14105293154716492,
      "learning_rate": 0.0001975824194068946,
      "loss": 0.3861,
      "num_input_tokens_seen": 18387016,
      "step": 28090
    },
    {
      "epoch": 14.724842767295598,
      "grad_norm": 0.17437823116779327,
      "learning_rate": 0.00019740033702958653,
      "loss": 0.4112,
      "num_input_tokens_seen": 18390120,
      "step": 28095
    },
    {
      "epoch": 14.727463312368974,
      "grad_norm": 0.12090287357568741,
      "learning_rate": 0.0001972183179526758,
      "loss": 0.4495,
      "num_input_tokens_seen": 18392936,
      "step": 28100
    },
    {
      "epoch": 14.730083857442349,
      "grad_norm": 0.1275993436574936,
      "learning_rate": 0.0001970363622142386,
      "loss": 0.4766,
      "num_input_tokens_seen": 18395720,
      "step": 28105
    },
    {
      "epoch": 14.732704402515724,
      "grad_norm": 0.13678783178329468,
      "learning_rate": 0.00019685446985233824,
      "loss": 0.3737,
      "num_input_tokens_seen": 18398312,
      "step": 28110
    },
    {
      "epoch": 14.735324947589099,
      "grad_norm": 0.1678979992866516,
      "learning_rate": 0.00019667264090502412,
      "loss": 0.4255,
      "num_input_tokens_seen": 18401608,
      "step": 28115
    },
    {
      "epoch": 14.737945492662474,
      "grad_norm": 0.11642425507307053,
      "learning_rate": 0.0001964908754103331,
      "loss": 0.4963,
      "num_input_tokens_seen": 18404424,
      "step": 28120
    },
    {
      "epoch": 14.74056603773585,
      "grad_norm": 0.09968748688697815,
      "learning_rate": 0.00019630917340628822,
      "loss": 0.3942,
      "num_input_tokens_seen": 18408040,
      "step": 28125
    },
    {
      "epoch": 14.743186582809225,
      "grad_norm": 0.11895133554935455,
      "learning_rate": 0.00019612753493089959,
      "loss": 0.4578,
      "num_input_tokens_seen": 18410792,
      "step": 28130
    },
    {
      "epoch": 14.7458071278826,
      "grad_norm": 0.2361154556274414,
      "learning_rate": 0.00019594596002216387,
      "loss": 0.4335,
      "num_input_tokens_seen": 18413320,
      "step": 28135
    },
    {
      "epoch": 14.748427672955975,
      "grad_norm": 0.20582468807697296,
      "learning_rate": 0.00019576444871806465,
      "loss": 0.4138,
      "num_input_tokens_seen": 18416200,
      "step": 28140
    },
    {
      "epoch": 14.75104821802935,
      "grad_norm": 0.3908984065055847,
      "learning_rate": 0.0001955830010565719,
      "loss": 0.5848,
      "num_input_tokens_seen": 18418760,
      "step": 28145
    },
    {
      "epoch": 14.753668763102725,
      "grad_norm": 0.21594339609146118,
      "learning_rate": 0.00019540161707564213,
      "loss": 0.5446,
      "num_input_tokens_seen": 18421832,
      "step": 28150
    },
    {
      "epoch": 14.7562893081761,
      "grad_norm": 0.097067691385746,
      "learning_rate": 0.000195220296813219,
      "loss": 0.3526,
      "num_input_tokens_seen": 18425608,
      "step": 28155
    },
    {
      "epoch": 14.758909853249476,
      "grad_norm": 0.14023129642009735,
      "learning_rate": 0.00019503904030723274,
      "loss": 0.4306,
      "num_input_tokens_seen": 18429256,
      "step": 28160
    },
    {
      "epoch": 14.76153039832285,
      "grad_norm": 0.1619957536458969,
      "learning_rate": 0.00019485784759560004,
      "loss": 0.4365,
      "num_input_tokens_seen": 18434600,
      "step": 28165
    },
    {
      "epoch": 14.764150943396226,
      "grad_norm": 0.20693303644657135,
      "learning_rate": 0.0001946767187162247,
      "loss": 0.4485,
      "num_input_tokens_seen": 18437416,
      "step": 28170
    },
    {
      "epoch": 14.766771488469601,
      "grad_norm": 0.12111309170722961,
      "learning_rate": 0.00019449565370699618,
      "loss": 0.4161,
      "num_input_tokens_seen": 18440776,
      "step": 28175
    },
    {
      "epoch": 14.769392033542976,
      "grad_norm": 0.10219540446996689,
      "learning_rate": 0.00019431465260579152,
      "loss": 0.3373,
      "num_input_tokens_seen": 18443528,
      "step": 28180
    },
    {
      "epoch": 14.772012578616351,
      "grad_norm": 0.17514760792255402,
      "learning_rate": 0.00019413371545047404,
      "loss": 0.4319,
      "num_input_tokens_seen": 18446504,
      "step": 28185
    },
    {
      "epoch": 14.774633123689728,
      "grad_norm": 0.10647466778755188,
      "learning_rate": 0.00019395284227889382,
      "loss": 0.4242,
      "num_input_tokens_seen": 18449864,
      "step": 28190
    },
    {
      "epoch": 14.777253668763104,
      "grad_norm": 0.1100369244813919,
      "learning_rate": 0.00019377203312888764,
      "loss": 0.3984,
      "num_input_tokens_seen": 18455816,
      "step": 28195
    },
    {
      "epoch": 14.779874213836479,
      "grad_norm": 0.17123033106327057,
      "learning_rate": 0.0001935912880382784,
      "loss": 0.3743,
      "num_input_tokens_seen": 18459144,
      "step": 28200
    },
    {
      "epoch": 14.782494758909854,
      "grad_norm": 0.1409730315208435,
      "learning_rate": 0.00019341060704487596,
      "loss": 0.4899,
      "num_input_tokens_seen": 18462056,
      "step": 28205
    },
    {
      "epoch": 14.785115303983229,
      "grad_norm": 0.1491421014070511,
      "learning_rate": 0.00019322999018647668,
      "loss": 0.5757,
      "num_input_tokens_seen": 18465352,
      "step": 28210
    },
    {
      "epoch": 14.787735849056604,
      "grad_norm": 0.11777262389659882,
      "learning_rate": 0.00019304943750086362,
      "loss": 0.5549,
      "num_input_tokens_seen": 18468776,
      "step": 28215
    },
    {
      "epoch": 14.79035639412998,
      "grad_norm": 0.08179045468568802,
      "learning_rate": 0.0001928689490258066,
      "loss": 0.498,
      "num_input_tokens_seen": 18472296,
      "step": 28220
    },
    {
      "epoch": 14.792976939203355,
      "grad_norm": 0.13115163147449493,
      "learning_rate": 0.00019268852479906146,
      "loss": 0.5324,
      "num_input_tokens_seen": 18476424,
      "step": 28225
    },
    {
      "epoch": 14.79559748427673,
      "grad_norm": 0.10123234242200851,
      "learning_rate": 0.0001925081648583708,
      "loss": 0.4074,
      "num_input_tokens_seen": 18479912,
      "step": 28230
    },
    {
      "epoch": 14.798218029350105,
      "grad_norm": 0.09785165637731552,
      "learning_rate": 0.00019232786924146394,
      "loss": 0.3565,
      "num_input_tokens_seen": 18482632,
      "step": 28235
    },
    {
      "epoch": 14.80083857442348,
      "grad_norm": 0.10224688798189163,
      "learning_rate": 0.00019214763798605677,
      "loss": 0.3875,
      "num_input_tokens_seen": 18485928,
      "step": 28240
    },
    {
      "epoch": 14.803459119496855,
      "grad_norm": 0.09251551330089569,
      "learning_rate": 0.00019196747112985158,
      "loss": 0.5082,
      "num_input_tokens_seen": 18489768,
      "step": 28245
    },
    {
      "epoch": 14.80607966457023,
      "grad_norm": 0.17197458446025848,
      "learning_rate": 0.00019178736871053737,
      "loss": 0.4692,
      "num_input_tokens_seen": 18492968,
      "step": 28250
    },
    {
      "epoch": 14.808700209643606,
      "grad_norm": 0.1829250454902649,
      "learning_rate": 0.00019160733076578935,
      "loss": 0.5329,
      "num_input_tokens_seen": 18496136,
      "step": 28255
    },
    {
      "epoch": 14.81132075471698,
      "grad_norm": 0.10757652670145035,
      "learning_rate": 0.0001914273573332692,
      "loss": 0.4147,
      "num_input_tokens_seen": 18499880,
      "step": 28260
    },
    {
      "epoch": 14.813941299790356,
      "grad_norm": 0.09186349809169769,
      "learning_rate": 0.00019124744845062553,
      "loss": 0.5547,
      "num_input_tokens_seen": 18504488,
      "step": 28265
    },
    {
      "epoch": 14.816561844863731,
      "grad_norm": 0.10607318580150604,
      "learning_rate": 0.00019106760415549324,
      "loss": 0.3747,
      "num_input_tokens_seen": 18507304,
      "step": 28270
    },
    {
      "epoch": 14.819182389937106,
      "grad_norm": 0.1755392700433731,
      "learning_rate": 0.0001908878244854938,
      "loss": 0.4345,
      "num_input_tokens_seen": 18510152,
      "step": 28275
    },
    {
      "epoch": 14.821802935010481,
      "grad_norm": 0.1463918685913086,
      "learning_rate": 0.00019070810947823498,
      "loss": 0.4663,
      "num_input_tokens_seen": 18513960,
      "step": 28280
    },
    {
      "epoch": 14.824423480083858,
      "grad_norm": 0.13335846364498138,
      "learning_rate": 0.0001905284591713109,
      "loss": 0.5541,
      "num_input_tokens_seen": 18516520,
      "step": 28285
    },
    {
      "epoch": 14.827044025157234,
      "grad_norm": 0.14411574602127075,
      "learning_rate": 0.00019034887360230246,
      "loss": 0.3938,
      "num_input_tokens_seen": 18519336,
      "step": 28290
    },
    {
      "epoch": 14.829664570230609,
      "grad_norm": 0.18228031694889069,
      "learning_rate": 0.000190169352808777,
      "loss": 0.4472,
      "num_input_tokens_seen": 18522024,
      "step": 28295
    },
    {
      "epoch": 14.832285115303984,
      "grad_norm": 0.14804191887378693,
      "learning_rate": 0.00018998989682828844,
      "loss": 0.5542,
      "num_input_tokens_seen": 18526504,
      "step": 28300
    },
    {
      "epoch": 14.834905660377359,
      "grad_norm": 0.109537273645401,
      "learning_rate": 0.00018981050569837643,
      "loss": 0.4146,
      "num_input_tokens_seen": 18529736,
      "step": 28305
    },
    {
      "epoch": 14.837526205450734,
      "grad_norm": 0.17500534653663635,
      "learning_rate": 0.000189631179456568,
      "loss": 0.4532,
      "num_input_tokens_seen": 18532648,
      "step": 28310
    },
    {
      "epoch": 14.84014675052411,
      "grad_norm": 0.1563647985458374,
      "learning_rate": 0.00018945191814037578,
      "loss": 0.4289,
      "num_input_tokens_seen": 18535112,
      "step": 28315
    },
    {
      "epoch": 14.842767295597485,
      "grad_norm": 0.09170687198638916,
      "learning_rate": 0.00018927272178729938,
      "loss": 0.4455,
      "num_input_tokens_seen": 18538376,
      "step": 28320
    },
    {
      "epoch": 14.84538784067086,
      "grad_norm": 0.10088522732257843,
      "learning_rate": 0.00018909359043482477,
      "loss": 0.4738,
      "num_input_tokens_seen": 18541864,
      "step": 28325
    },
    {
      "epoch": 14.848008385744235,
      "grad_norm": 0.23763389885425568,
      "learning_rate": 0.00018891452412042386,
      "loss": 0.5007,
      "num_input_tokens_seen": 18545320,
      "step": 28330
    },
    {
      "epoch": 14.85062893081761,
      "grad_norm": 0.17934714257717133,
      "learning_rate": 0.00018873552288155542,
      "loss": 0.4813,
      "num_input_tokens_seen": 18547720,
      "step": 28335
    },
    {
      "epoch": 14.853249475890985,
      "grad_norm": 0.17011764645576477,
      "learning_rate": 0.00018855658675566471,
      "loss": 0.4745,
      "num_input_tokens_seen": 18551880,
      "step": 28340
    },
    {
      "epoch": 14.85587002096436,
      "grad_norm": 0.13528375327587128,
      "learning_rate": 0.00018837771578018275,
      "loss": 0.2991,
      "num_input_tokens_seen": 18554568,
      "step": 28345
    },
    {
      "epoch": 14.858490566037736,
      "grad_norm": 0.0951899066567421,
      "learning_rate": 0.00018819890999252747,
      "loss": 0.4958,
      "num_input_tokens_seen": 18557448,
      "step": 28350
    },
    {
      "epoch": 14.86111111111111,
      "grad_norm": 0.29637014865875244,
      "learning_rate": 0.0001880201694301032,
      "loss": 0.4565,
      "num_input_tokens_seen": 18559656,
      "step": 28355
    },
    {
      "epoch": 14.863731656184486,
      "grad_norm": 0.09398391842842102,
      "learning_rate": 0.00018784149413030005,
      "loss": 0.4186,
      "num_input_tokens_seen": 18563752,
      "step": 28360
    },
    {
      "epoch": 14.866352201257861,
      "grad_norm": 0.12124469876289368,
      "learning_rate": 0.00018766288413049503,
      "loss": 0.4699,
      "num_input_tokens_seen": 18566696,
      "step": 28365
    },
    {
      "epoch": 14.868972746331236,
      "grad_norm": 0.10277052968740463,
      "learning_rate": 0.00018748433946805148,
      "loss": 0.4738,
      "num_input_tokens_seen": 18570280,
      "step": 28370
    },
    {
      "epoch": 14.871593291404611,
      "grad_norm": 0.1105445995926857,
      "learning_rate": 0.00018730586018031854,
      "loss": 0.3498,
      "num_input_tokens_seen": 18573416,
      "step": 28375
    },
    {
      "epoch": 14.874213836477988,
      "grad_norm": 0.11808227002620697,
      "learning_rate": 0.00018712744630463248,
      "loss": 0.3062,
      "num_input_tokens_seen": 18576712,
      "step": 28380
    },
    {
      "epoch": 14.876834381551364,
      "grad_norm": 0.15195345878601074,
      "learning_rate": 0.000186949097878315,
      "loss": 0.4606,
      "num_input_tokens_seen": 18579912,
      "step": 28385
    },
    {
      "epoch": 14.879454926624739,
      "grad_norm": 0.20491677522659302,
      "learning_rate": 0.0001867708149386748,
      "loss": 0.4362,
      "num_input_tokens_seen": 18582664,
      "step": 28390
    },
    {
      "epoch": 14.882075471698114,
      "grad_norm": 0.1504061073064804,
      "learning_rate": 0.0001865925975230068,
      "loss": 0.4294,
      "num_input_tokens_seen": 18585704,
      "step": 28395
    },
    {
      "epoch": 14.884696016771489,
      "grad_norm": 0.20140504837036133,
      "learning_rate": 0.0001864144456685916,
      "loss": 0.2998,
      "num_input_tokens_seen": 18588456,
      "step": 28400
    },
    {
      "epoch": 14.887316561844864,
      "grad_norm": 0.15496104955673218,
      "learning_rate": 0.00018623635941269706,
      "loss": 0.4096,
      "num_input_tokens_seen": 18591848,
      "step": 28405
    },
    {
      "epoch": 14.88993710691824,
      "grad_norm": 0.1842084378004074,
      "learning_rate": 0.00018605833879257628,
      "loss": 0.5801,
      "num_input_tokens_seen": 18594440,
      "step": 28410
    },
    {
      "epoch": 14.892557651991615,
      "grad_norm": 0.12216393649578094,
      "learning_rate": 0.0001858803838454694,
      "loss": 0.5111,
      "num_input_tokens_seen": 18597960,
      "step": 28415
    },
    {
      "epoch": 14.89517819706499,
      "grad_norm": 0.08953620493412018,
      "learning_rate": 0.0001857024946086026,
      "loss": 0.5398,
      "num_input_tokens_seen": 18600712,
      "step": 28420
    },
    {
      "epoch": 14.897798742138365,
      "grad_norm": 0.11380236595869064,
      "learning_rate": 0.00018552467111918836,
      "loss": 0.4224,
      "num_input_tokens_seen": 18603944,
      "step": 28425
    },
    {
      "epoch": 14.90041928721174,
      "grad_norm": 0.14711768925189972,
      "learning_rate": 0.00018534691341442507,
      "loss": 0.4008,
      "num_input_tokens_seen": 18607016,
      "step": 28430
    },
    {
      "epoch": 14.903039832285115,
      "grad_norm": 0.2293756753206253,
      "learning_rate": 0.0001851692215314979,
      "loss": 0.5361,
      "num_input_tokens_seen": 18609832,
      "step": 28435
    },
    {
      "epoch": 14.90566037735849,
      "grad_norm": 0.11507301777601242,
      "learning_rate": 0.0001849915955075776,
      "loss": 0.3068,
      "num_input_tokens_seen": 18613064,
      "step": 28440
    },
    {
      "epoch": 14.908280922431866,
      "grad_norm": 0.1488417536020279,
      "learning_rate": 0.0001848140353798217,
      "loss": 0.4556,
      "num_input_tokens_seen": 18616648,
      "step": 28445
    },
    {
      "epoch": 14.91090146750524,
      "grad_norm": 0.10830846428871155,
      "learning_rate": 0.00018463654118537382,
      "loss": 0.4231,
      "num_input_tokens_seen": 18619688,
      "step": 28450
    },
    {
      "epoch": 14.913522012578616,
      "grad_norm": 0.16112366318702698,
      "learning_rate": 0.00018445911296136386,
      "loss": 0.4716,
      "num_input_tokens_seen": 18622568,
      "step": 28455
    },
    {
      "epoch": 14.916142557651991,
      "grad_norm": 0.1384517103433609,
      "learning_rate": 0.00018428175074490754,
      "loss": 0.4049,
      "num_input_tokens_seen": 18626216,
      "step": 28460
    },
    {
      "epoch": 14.918763102725366,
      "grad_norm": 0.09532253444194794,
      "learning_rate": 0.00018410445457310687,
      "loss": 0.5127,
      "num_input_tokens_seen": 18629512,
      "step": 28465
    },
    {
      "epoch": 14.921383647798741,
      "grad_norm": 0.10954660922288895,
      "learning_rate": 0.00018392722448305044,
      "loss": 0.3832,
      "num_input_tokens_seen": 18632744,
      "step": 28470
    },
    {
      "epoch": 14.924004192872118,
      "grad_norm": 0.2042631059885025,
      "learning_rate": 0.00018375006051181265,
      "loss": 0.3958,
      "num_input_tokens_seen": 18635368,
      "step": 28475
    },
    {
      "epoch": 14.926624737945493,
      "grad_norm": 0.16956856846809387,
      "learning_rate": 0.0001835729626964544,
      "loss": 0.4874,
      "num_input_tokens_seen": 18638376,
      "step": 28480
    },
    {
      "epoch": 14.929245283018869,
      "grad_norm": 0.11983736604452133,
      "learning_rate": 0.00018339593107402242,
      "loss": 0.3747,
      "num_input_tokens_seen": 18641736,
      "step": 28485
    },
    {
      "epoch": 14.931865828092244,
      "grad_norm": 0.24968352913856506,
      "learning_rate": 0.00018321896568154945,
      "loss": 0.4958,
      "num_input_tokens_seen": 18644136,
      "step": 28490
    },
    {
      "epoch": 14.934486373165619,
      "grad_norm": 0.1137261614203453,
      "learning_rate": 0.00018304206655605476,
      "loss": 0.4063,
      "num_input_tokens_seen": 18646504,
      "step": 28495
    },
    {
      "epoch": 14.937106918238994,
      "grad_norm": 0.252894788980484,
      "learning_rate": 0.00018286523373454378,
      "loss": 0.3987,
      "num_input_tokens_seen": 18650536,
      "step": 28500
    },
    {
      "epoch": 14.93972746331237,
      "grad_norm": 0.0740910992026329,
      "learning_rate": 0.00018268846725400783,
      "loss": 0.5466,
      "num_input_tokens_seen": 18655944,
      "step": 28505
    },
    {
      "epoch": 14.942348008385745,
      "grad_norm": 0.14529499411582947,
      "learning_rate": 0.00018251176715142458,
      "loss": 0.3147,
      "num_input_tokens_seen": 18659496,
      "step": 28510
    },
    {
      "epoch": 14.94496855345912,
      "grad_norm": 0.1622885912656784,
      "learning_rate": 0.00018233513346375756,
      "loss": 0.5641,
      "num_input_tokens_seen": 18662152,
      "step": 28515
    },
    {
      "epoch": 14.947589098532495,
      "grad_norm": 0.4011264443397522,
      "learning_rate": 0.00018215856622795634,
      "loss": 0.4627,
      "num_input_tokens_seen": 18664648,
      "step": 28520
    },
    {
      "epoch": 14.95020964360587,
      "grad_norm": 0.09138425439596176,
      "learning_rate": 0.00018198206548095697,
      "loss": 0.4937,
      "num_input_tokens_seen": 18668968,
      "step": 28525
    },
    {
      "epoch": 14.952830188679245,
      "grad_norm": 0.13182087242603302,
      "learning_rate": 0.00018180563125968135,
      "loss": 0.3351,
      "num_input_tokens_seen": 18672104,
      "step": 28530
    },
    {
      "epoch": 14.95545073375262,
      "grad_norm": 0.15483592450618744,
      "learning_rate": 0.00018162926360103766,
      "loss": 0.3524,
      "num_input_tokens_seen": 18674472,
      "step": 28535
    },
    {
      "epoch": 14.958071278825996,
      "grad_norm": 0.14667336642742157,
      "learning_rate": 0.0001814529625419199,
      "loss": 0.3603,
      "num_input_tokens_seen": 18677576,
      "step": 28540
    },
    {
      "epoch": 14.96069182389937,
      "grad_norm": 0.1202327162027359,
      "learning_rate": 0.00018127672811920798,
      "loss": 0.4513,
      "num_input_tokens_seen": 18681832,
      "step": 28545
    },
    {
      "epoch": 14.963312368972746,
      "grad_norm": 0.251702219247818,
      "learning_rate": 0.00018110056036976834,
      "loss": 0.5533,
      "num_input_tokens_seen": 18684104,
      "step": 28550
    },
    {
      "epoch": 14.965932914046121,
      "grad_norm": 0.12257305532693863,
      "learning_rate": 0.00018092445933045332,
      "loss": 0.408,
      "num_input_tokens_seen": 18687208,
      "step": 28555
    },
    {
      "epoch": 14.968553459119496,
      "grad_norm": 0.18840233981609344,
      "learning_rate": 0.00018074842503810118,
      "loss": 0.5197,
      "num_input_tokens_seen": 18689640,
      "step": 28560
    },
    {
      "epoch": 14.971174004192871,
      "grad_norm": 0.13975700736045837,
      "learning_rate": 0.00018057245752953666,
      "loss": 0.3727,
      "num_input_tokens_seen": 18692616,
      "step": 28565
    },
    {
      "epoch": 14.973794549266248,
      "grad_norm": 0.0755152478814125,
      "learning_rate": 0.00018039655684156948,
      "loss": 0.2799,
      "num_input_tokens_seen": 18696328,
      "step": 28570
    },
    {
      "epoch": 14.976415094339622,
      "grad_norm": 0.1976763755083084,
      "learning_rate": 0.00018022072301099635,
      "loss": 0.3396,
      "num_input_tokens_seen": 18699240,
      "step": 28575
    },
    {
      "epoch": 14.979035639412999,
      "grad_norm": 0.26003795862197876,
      "learning_rate": 0.00018004495607459975,
      "loss": 0.5007,
      "num_input_tokens_seen": 18701704,
      "step": 28580
    },
    {
      "epoch": 14.981656184486374,
      "grad_norm": 0.1195191964507103,
      "learning_rate": 0.00017986925606914805,
      "loss": 0.3813,
      "num_input_tokens_seen": 18704936,
      "step": 28585
    },
    {
      "epoch": 14.984276729559749,
      "grad_norm": 0.18892328441143036,
      "learning_rate": 0.00017969362303139598,
      "loss": 0.5223,
      "num_input_tokens_seen": 18708808,
      "step": 28590
    },
    {
      "epoch": 14.986897274633124,
      "grad_norm": 0.15395064651966095,
      "learning_rate": 0.00017951805699808365,
      "loss": 0.4427,
      "num_input_tokens_seen": 18711880,
      "step": 28595
    },
    {
      "epoch": 14.9895178197065,
      "grad_norm": 0.11291268467903137,
      "learning_rate": 0.00017934255800593747,
      "loss": 0.3777,
      "num_input_tokens_seen": 18715304,
      "step": 28600
    },
    {
      "epoch": 14.992138364779874,
      "grad_norm": 0.10576687753200531,
      "learning_rate": 0.0001791671260916698,
      "loss": 0.4,
      "num_input_tokens_seen": 18718600,
      "step": 28605
    },
    {
      "epoch": 14.99475890985325,
      "grad_norm": 0.1364111602306366,
      "learning_rate": 0.00017899176129197914,
      "loss": 0.4614,
      "num_input_tokens_seen": 18721256,
      "step": 28610
    },
    {
      "epoch": 14.997379454926625,
      "grad_norm": 0.12918388843536377,
      "learning_rate": 0.00017881646364354998,
      "loss": 0.4193,
      "num_input_tokens_seen": 18724008,
      "step": 28615
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.24618279933929443,
      "learning_rate": 0.00017864123318305213,
      "loss": 0.4207,
      "num_input_tokens_seen": 18726216,
      "step": 28620
    },
    {
      "epoch": 15.0,
      "eval_loss": 0.45293691754341125,
      "eval_runtime": 13.3295,
      "eval_samples_per_second": 63.619,
      "eval_steps_per_second": 15.905,
      "num_input_tokens_seen": 18726216,
      "step": 28620
    },
    {
      "epoch": 15.002620545073375,
      "grad_norm": 0.18984363973140717,
      "learning_rate": 0.00017846606994714222,
      "loss": 0.3797,
      "num_input_tokens_seen": 18729384,
      "step": 28625
    },
    {
      "epoch": 15.00524109014675,
      "grad_norm": 0.11801866441965103,
      "learning_rate": 0.0001782909739724621,
      "loss": 0.4334,
      "num_input_tokens_seen": 18731944,
      "step": 28630
    },
    {
      "epoch": 15.007861635220126,
      "grad_norm": 0.1865498125553131,
      "learning_rate": 0.0001781159452956399,
      "loss": 0.4245,
      "num_input_tokens_seen": 18735432,
      "step": 28635
    },
    {
      "epoch": 15.0104821802935,
      "grad_norm": 0.07498291879892349,
      "learning_rate": 0.00017794098395328977,
      "loss": 0.4027,
      "num_input_tokens_seen": 18739208,
      "step": 28640
    },
    {
      "epoch": 15.013102725366876,
      "grad_norm": 0.18432223796844482,
      "learning_rate": 0.00017776608998201172,
      "loss": 0.5115,
      "num_input_tokens_seen": 18742472,
      "step": 28645
    },
    {
      "epoch": 15.015723270440251,
      "grad_norm": 0.08750534802675247,
      "learning_rate": 0.00017759126341839132,
      "loss": 0.3235,
      "num_input_tokens_seen": 18746280,
      "step": 28650
    },
    {
      "epoch": 15.018343815513626,
      "grad_norm": 0.20133712887763977,
      "learning_rate": 0.0001774165042990003,
      "loss": 0.3067,
      "num_input_tokens_seen": 18748968,
      "step": 28655
    },
    {
      "epoch": 15.020964360587001,
      "grad_norm": 0.15533311665058136,
      "learning_rate": 0.00017724181266039635,
      "loss": 0.5827,
      "num_input_tokens_seen": 18752008,
      "step": 28660
    },
    {
      "epoch": 15.023584905660377,
      "grad_norm": 0.07303020358085632,
      "learning_rate": 0.00017706718853912292,
      "loss": 0.3294,
      "num_input_tokens_seen": 18756264,
      "step": 28665
    },
    {
      "epoch": 15.026205450733753,
      "grad_norm": 0.24763420224189758,
      "learning_rate": 0.00017689263197170964,
      "loss": 0.5212,
      "num_input_tokens_seen": 18759560,
      "step": 28670
    },
    {
      "epoch": 15.028825995807129,
      "grad_norm": 0.19864754378795624,
      "learning_rate": 0.00017671814299467136,
      "loss": 0.3004,
      "num_input_tokens_seen": 18762280,
      "step": 28675
    },
    {
      "epoch": 15.031446540880504,
      "grad_norm": 0.14586032927036285,
      "learning_rate": 0.00017654372164450954,
      "loss": 0.3376,
      "num_input_tokens_seen": 18765288,
      "step": 28680
    },
    {
      "epoch": 15.034067085953879,
      "grad_norm": 0.1436660885810852,
      "learning_rate": 0.0001763693679577108,
      "loss": 0.4248,
      "num_input_tokens_seen": 18769096,
      "step": 28685
    },
    {
      "epoch": 15.036687631027254,
      "grad_norm": 0.08672915399074554,
      "learning_rate": 0.00017619508197074812,
      "loss": 0.4591,
      "num_input_tokens_seen": 18771496,
      "step": 28690
    },
    {
      "epoch": 15.03930817610063,
      "grad_norm": 0.18771152198314667,
      "learning_rate": 0.0001760208637200803,
      "loss": 0.3676,
      "num_input_tokens_seen": 18774856,
      "step": 28695
    },
    {
      "epoch": 15.041928721174004,
      "grad_norm": 0.11781401932239532,
      "learning_rate": 0.00017584671324215152,
      "loss": 0.5975,
      "num_input_tokens_seen": 18777576,
      "step": 28700
    },
    {
      "epoch": 15.04454926624738,
      "grad_norm": 0.15327022969722748,
      "learning_rate": 0.00017567263057339212,
      "loss": 0.4434,
      "num_input_tokens_seen": 18780008,
      "step": 28705
    },
    {
      "epoch": 15.047169811320755,
      "grad_norm": 0.10197950899600983,
      "learning_rate": 0.00017549861575021848,
      "loss": 0.4914,
      "num_input_tokens_seen": 18782984,
      "step": 28710
    },
    {
      "epoch": 15.04979035639413,
      "grad_norm": 0.1610363870859146,
      "learning_rate": 0.00017532466880903214,
      "loss": 0.4263,
      "num_input_tokens_seen": 18785800,
      "step": 28715
    },
    {
      "epoch": 15.052410901467505,
      "grad_norm": 0.12999998033046722,
      "learning_rate": 0.00017515078978622102,
      "loss": 0.3474,
      "num_input_tokens_seen": 18788040,
      "step": 28720
    },
    {
      "epoch": 15.05503144654088,
      "grad_norm": 0.14185751974582672,
      "learning_rate": 0.0001749769787181587,
      "loss": 0.457,
      "num_input_tokens_seen": 18791912,
      "step": 28725
    },
    {
      "epoch": 15.057651991614255,
      "grad_norm": 0.08536849915981293,
      "learning_rate": 0.00017480323564120426,
      "loss": 0.3279,
      "num_input_tokens_seen": 18795208,
      "step": 28730
    },
    {
      "epoch": 15.06027253668763,
      "grad_norm": 0.13823819160461426,
      "learning_rate": 0.00017462956059170287,
      "loss": 0.3908,
      "num_input_tokens_seen": 18797960,
      "step": 28735
    },
    {
      "epoch": 15.062893081761006,
      "grad_norm": 0.18561862409114838,
      "learning_rate": 0.00017445595360598553,
      "loss": 0.4609,
      "num_input_tokens_seen": 18801544,
      "step": 28740
    },
    {
      "epoch": 15.065513626834381,
      "grad_norm": 0.5504285097122192,
      "learning_rate": 0.0001742824147203686,
      "loss": 0.6722,
      "num_input_tokens_seen": 18804072,
      "step": 28745
    },
    {
      "epoch": 15.068134171907756,
      "grad_norm": 0.13595230877399445,
      "learning_rate": 0.00017410894397115463,
      "loss": 0.4178,
      "num_input_tokens_seen": 18806696,
      "step": 28750
    },
    {
      "epoch": 15.070754716981131,
      "grad_norm": 0.11007045954465866,
      "learning_rate": 0.00017393554139463147,
      "loss": 0.3352,
      "num_input_tokens_seen": 18809864,
      "step": 28755
    },
    {
      "epoch": 15.073375262054507,
      "grad_norm": 0.12627799808979034,
      "learning_rate": 0.00017376220702707308,
      "loss": 0.5043,
      "num_input_tokens_seen": 18814440,
      "step": 28760
    },
    {
      "epoch": 15.075995807127883,
      "grad_norm": 0.1868434101343155,
      "learning_rate": 0.00017358894090473926,
      "loss": 0.4863,
      "num_input_tokens_seen": 18818024,
      "step": 28765
    },
    {
      "epoch": 15.078616352201259,
      "grad_norm": 0.10962647944688797,
      "learning_rate": 0.00017341574306387492,
      "loss": 0.4989,
      "num_input_tokens_seen": 18822216,
      "step": 28770
    },
    {
      "epoch": 15.081236897274634,
      "grad_norm": 0.19156335294246674,
      "learning_rate": 0.00017324261354071147,
      "loss": 0.4994,
      "num_input_tokens_seen": 18824616,
      "step": 28775
    },
    {
      "epoch": 15.083857442348009,
      "grad_norm": 0.16526688635349274,
      "learning_rate": 0.00017306955237146522,
      "loss": 0.3931,
      "num_input_tokens_seen": 18827624,
      "step": 28780
    },
    {
      "epoch": 15.086477987421384,
      "grad_norm": 0.12362489104270935,
      "learning_rate": 0.0001728965595923388,
      "loss": 0.4995,
      "num_input_tokens_seen": 18830888,
      "step": 28785
    },
    {
      "epoch": 15.08909853249476,
      "grad_norm": 0.12861618399620056,
      "learning_rate": 0.00017272363523952033,
      "loss": 0.4062,
      "num_input_tokens_seen": 18833640,
      "step": 28790
    },
    {
      "epoch": 15.091719077568134,
      "grad_norm": 0.16735827922821045,
      "learning_rate": 0.0001725507793491838,
      "loss": 0.521,
      "num_input_tokens_seen": 18836424,
      "step": 28795
    },
    {
      "epoch": 15.09433962264151,
      "grad_norm": 0.16985508799552917,
      "learning_rate": 0.00017237799195748827,
      "loss": 0.424,
      "num_input_tokens_seen": 18839496,
      "step": 28800
    },
    {
      "epoch": 15.096960167714885,
      "grad_norm": 0.13109013438224792,
      "learning_rate": 0.00017220527310057927,
      "loss": 0.3656,
      "num_input_tokens_seen": 18841928,
      "step": 28805
    },
    {
      "epoch": 15.09958071278826,
      "grad_norm": 0.24825815856456757,
      "learning_rate": 0.0001720326228145873,
      "loss": 0.3484,
      "num_input_tokens_seen": 18844648,
      "step": 28810
    },
    {
      "epoch": 15.102201257861635,
      "grad_norm": 0.20593969523906708,
      "learning_rate": 0.00017186004113562903,
      "loss": 0.4031,
      "num_input_tokens_seen": 18847656,
      "step": 28815
    },
    {
      "epoch": 15.10482180293501,
      "grad_norm": 0.1206810250878334,
      "learning_rate": 0.00017168752809980655,
      "loss": 0.4535,
      "num_input_tokens_seen": 18850760,
      "step": 28820
    },
    {
      "epoch": 15.107442348008385,
      "grad_norm": 0.10709608346223831,
      "learning_rate": 0.00017151508374320767,
      "loss": 0.3479,
      "num_input_tokens_seen": 18853864,
      "step": 28825
    },
    {
      "epoch": 15.11006289308176,
      "grad_norm": 0.11618651449680328,
      "learning_rate": 0.00017134270810190583,
      "loss": 0.46,
      "num_input_tokens_seen": 18857992,
      "step": 28830
    },
    {
      "epoch": 15.112683438155136,
      "grad_norm": 0.1655663400888443,
      "learning_rate": 0.0001711704012119597,
      "loss": 0.4299,
      "num_input_tokens_seen": 18861576,
      "step": 28835
    },
    {
      "epoch": 15.115303983228511,
      "grad_norm": 0.102178193628788,
      "learning_rate": 0.0001709981631094142,
      "loss": 0.4261,
      "num_input_tokens_seen": 18865736,
      "step": 28840
    },
    {
      "epoch": 15.117924528301886,
      "grad_norm": 0.10028765350580215,
      "learning_rate": 0.00017082599383029946,
      "loss": 0.365,
      "num_input_tokens_seen": 18869736,
      "step": 28845
    },
    {
      "epoch": 15.120545073375261,
      "grad_norm": 0.12665769457817078,
      "learning_rate": 0.0001706538934106316,
      "loss": 0.5012,
      "num_input_tokens_seen": 18872520,
      "step": 28850
    },
    {
      "epoch": 15.123165618448636,
      "grad_norm": 0.08944570273160934,
      "learning_rate": 0.00017048186188641185,
      "loss": 0.4325,
      "num_input_tokens_seen": 18876200,
      "step": 28855
    },
    {
      "epoch": 15.125786163522013,
      "grad_norm": 0.1291915327310562,
      "learning_rate": 0.0001703098992936271,
      "loss": 0.4003,
      "num_input_tokens_seen": 18878856,
      "step": 28860
    },
    {
      "epoch": 15.128406708595389,
      "grad_norm": 0.11811971664428711,
      "learning_rate": 0.00017013800566825012,
      "loss": 0.5264,
      "num_input_tokens_seen": 18883112,
      "step": 28865
    },
    {
      "epoch": 15.131027253668764,
      "grad_norm": 0.07137056440114975,
      "learning_rate": 0.00016996618104623905,
      "loss": 0.3834,
      "num_input_tokens_seen": 18886344,
      "step": 28870
    },
    {
      "epoch": 15.133647798742139,
      "grad_norm": 0.07647030800580978,
      "learning_rate": 0.00016979442546353774,
      "loss": 0.466,
      "num_input_tokens_seen": 18890248,
      "step": 28875
    },
    {
      "epoch": 15.136268343815514,
      "grad_norm": 0.13362756371498108,
      "learning_rate": 0.00016962273895607555,
      "loss": 0.4149,
      "num_input_tokens_seen": 18893512,
      "step": 28880
    },
    {
      "epoch": 15.13888888888889,
      "grad_norm": 0.2392575889825821,
      "learning_rate": 0.00016945112155976723,
      "loss": 0.4244,
      "num_input_tokens_seen": 18896552,
      "step": 28885
    },
    {
      "epoch": 15.141509433962264,
      "grad_norm": 0.13507196307182312,
      "learning_rate": 0.000169279573310513,
      "loss": 0.4727,
      "num_input_tokens_seen": 18899912,
      "step": 28890
    },
    {
      "epoch": 15.14412997903564,
      "grad_norm": 0.21637111902236938,
      "learning_rate": 0.00016910809424419904,
      "loss": 0.4631,
      "num_input_tokens_seen": 18903336,
      "step": 28895
    },
    {
      "epoch": 15.146750524109015,
      "grad_norm": 0.1844225823879242,
      "learning_rate": 0.00016893668439669674,
      "loss": 0.4158,
      "num_input_tokens_seen": 18905736,
      "step": 28900
    },
    {
      "epoch": 15.14937106918239,
      "grad_norm": 0.15411154925823212,
      "learning_rate": 0.0001687653438038632,
      "loss": 0.2872,
      "num_input_tokens_seen": 18909864,
      "step": 28905
    },
    {
      "epoch": 15.151991614255765,
      "grad_norm": 0.1934872567653656,
      "learning_rate": 0.00016859407250154084,
      "loss": 0.466,
      "num_input_tokens_seen": 18914280,
      "step": 28910
    },
    {
      "epoch": 15.15461215932914,
      "grad_norm": 0.16138258576393127,
      "learning_rate": 0.0001684228705255575,
      "loss": 0.4766,
      "num_input_tokens_seen": 18917160,
      "step": 28915
    },
    {
      "epoch": 15.157232704402515,
      "grad_norm": 0.14243245124816895,
      "learning_rate": 0.00016825173791172677,
      "loss": 0.4251,
      "num_input_tokens_seen": 18920616,
      "step": 28920
    },
    {
      "epoch": 15.15985324947589,
      "grad_norm": 0.09775029122829437,
      "learning_rate": 0.0001680806746958477,
      "loss": 0.499,
      "num_input_tokens_seen": 18924616,
      "step": 28925
    },
    {
      "epoch": 15.162473794549266,
      "grad_norm": 0.21364726126194,
      "learning_rate": 0.00016790968091370494,
      "loss": 0.489,
      "num_input_tokens_seen": 18928488,
      "step": 28930
    },
    {
      "epoch": 15.165094339622641,
      "grad_norm": 0.166913241147995,
      "learning_rate": 0.00016773875660106824,
      "loss": 0.4283,
      "num_input_tokens_seen": 18931240,
      "step": 28935
    },
    {
      "epoch": 15.167714884696016,
      "grad_norm": 0.1923965960741043,
      "learning_rate": 0.0001675679017936928,
      "loss": 0.6858,
      "num_input_tokens_seen": 18933928,
      "step": 28940
    },
    {
      "epoch": 15.170335429769391,
      "grad_norm": 0.12705399096012115,
      "learning_rate": 0.00016739711652731976,
      "loss": 0.3908,
      "num_input_tokens_seen": 18936776,
      "step": 28945
    },
    {
      "epoch": 15.172955974842766,
      "grad_norm": 0.09436396509408951,
      "learning_rate": 0.00016722640083767542,
      "loss": 0.4084,
      "num_input_tokens_seen": 18939912,
      "step": 28950
    },
    {
      "epoch": 15.175576519916143,
      "grad_norm": 0.1773548722267151,
      "learning_rate": 0.00016705575476047153,
      "loss": 0.3729,
      "num_input_tokens_seen": 18942600,
      "step": 28955
    },
    {
      "epoch": 15.178197064989519,
      "grad_norm": 0.23218126595020294,
      "learning_rate": 0.0001668851783314055,
      "loss": 0.4155,
      "num_input_tokens_seen": 18945640,
      "step": 28960
    },
    {
      "epoch": 15.180817610062894,
      "grad_norm": 0.11841104179620743,
      "learning_rate": 0.00016671467158615977,
      "loss": 0.3674,
      "num_input_tokens_seen": 18950152,
      "step": 28965
    },
    {
      "epoch": 15.183438155136269,
      "grad_norm": 0.15373867750167847,
      "learning_rate": 0.00016654423456040224,
      "loss": 0.4015,
      "num_input_tokens_seen": 18952520,
      "step": 28970
    },
    {
      "epoch": 15.186058700209644,
      "grad_norm": 0.13789749145507812,
      "learning_rate": 0.0001663738672897866,
      "loss": 0.5139,
      "num_input_tokens_seen": 18955336,
      "step": 28975
    },
    {
      "epoch": 15.18867924528302,
      "grad_norm": 0.12527593970298767,
      "learning_rate": 0.0001662035698099517,
      "loss": 0.3926,
      "num_input_tokens_seen": 18958216,
      "step": 28980
    },
    {
      "epoch": 15.191299790356394,
      "grad_norm": 0.08880088478326797,
      "learning_rate": 0.00016603334215652206,
      "loss": 0.5575,
      "num_input_tokens_seen": 18961128,
      "step": 28985
    },
    {
      "epoch": 15.19392033542977,
      "grad_norm": 0.19142034649848938,
      "learning_rate": 0.0001658631843651069,
      "loss": 0.4538,
      "num_input_tokens_seen": 18964200,
      "step": 28990
    },
    {
      "epoch": 15.196540880503145,
      "grad_norm": 0.1745115965604782,
      "learning_rate": 0.00016569309647130177,
      "loss": 0.5804,
      "num_input_tokens_seen": 18967368,
      "step": 28995
    },
    {
      "epoch": 15.19916142557652,
      "grad_norm": 0.16524076461791992,
      "learning_rate": 0.00016552307851068666,
      "loss": 0.402,
      "num_input_tokens_seen": 18970696,
      "step": 29000
    },
    {
      "epoch": 15.201781970649895,
      "grad_norm": 0.1652129739522934,
      "learning_rate": 0.00016535313051882765,
      "loss": 0.4761,
      "num_input_tokens_seen": 18974280,
      "step": 29005
    },
    {
      "epoch": 15.20440251572327,
      "grad_norm": 0.18263213336467743,
      "learning_rate": 0.00016518325253127604,
      "loss": 0.3485,
      "num_input_tokens_seen": 18977320,
      "step": 29010
    },
    {
      "epoch": 15.207023060796645,
      "grad_norm": 0.083034947514534,
      "learning_rate": 0.00016501344458356803,
      "loss": 0.3894,
      "num_input_tokens_seen": 18980712,
      "step": 29015
    },
    {
      "epoch": 15.20964360587002,
      "grad_norm": 0.11455335468053818,
      "learning_rate": 0.00016484370671122588,
      "loss": 0.4576,
      "num_input_tokens_seen": 18984168,
      "step": 29020
    },
    {
      "epoch": 15.212264150943396,
      "grad_norm": 0.11015389114618301,
      "learning_rate": 0.00016467403894975641,
      "loss": 0.3726,
      "num_input_tokens_seen": 18987528,
      "step": 29025
    },
    {
      "epoch": 15.214884696016771,
      "grad_norm": 0.15229365229606628,
      "learning_rate": 0.0001645044413346524,
      "loss": 0.4331,
      "num_input_tokens_seen": 18991560,
      "step": 29030
    },
    {
      "epoch": 15.217505241090146,
      "grad_norm": 0.19864565134048462,
      "learning_rate": 0.00016433491390139177,
      "loss": 0.4423,
      "num_input_tokens_seen": 18996360,
      "step": 29035
    },
    {
      "epoch": 15.220125786163521,
      "grad_norm": 0.1631629765033722,
      "learning_rate": 0.00016416545668543786,
      "loss": 0.4324,
      "num_input_tokens_seen": 18999304,
      "step": 29040
    },
    {
      "epoch": 15.222746331236896,
      "grad_norm": 0.18065275251865387,
      "learning_rate": 0.0001639960697222388,
      "loss": 0.409,
      "num_input_tokens_seen": 19002888,
      "step": 29045
    },
    {
      "epoch": 15.225366876310272,
      "grad_norm": 0.1074964702129364,
      "learning_rate": 0.00016382675304722877,
      "loss": 0.5027,
      "num_input_tokens_seen": 19006760,
      "step": 29050
    },
    {
      "epoch": 15.227987421383649,
      "grad_norm": 0.17946559190750122,
      "learning_rate": 0.00016365750669582662,
      "loss": 0.4615,
      "num_input_tokens_seen": 19009832,
      "step": 29055
    },
    {
      "epoch": 15.230607966457024,
      "grad_norm": 0.08737821131944656,
      "learning_rate": 0.00016348833070343682,
      "loss": 0.3451,
      "num_input_tokens_seen": 19013000,
      "step": 29060
    },
    {
      "epoch": 15.233228511530399,
      "grad_norm": 0.18028540909290314,
      "learning_rate": 0.00016331922510544932,
      "loss": 0.4852,
      "num_input_tokens_seen": 19017288,
      "step": 29065
    },
    {
      "epoch": 15.235849056603774,
      "grad_norm": 0.1965900957584381,
      "learning_rate": 0.0001631501899372387,
      "loss": 0.347,
      "num_input_tokens_seen": 19020936,
      "step": 29070
    },
    {
      "epoch": 15.23846960167715,
      "grad_norm": 0.19082476198673248,
      "learning_rate": 0.0001629812252341653,
      "loss": 0.4377,
      "num_input_tokens_seen": 19024488,
      "step": 29075
    },
    {
      "epoch": 15.241090146750524,
      "grad_norm": 0.25330203771591187,
      "learning_rate": 0.0001628123310315749,
      "loss": 0.4561,
      "num_input_tokens_seen": 19027752,
      "step": 29080
    },
    {
      "epoch": 15.2437106918239,
      "grad_norm": 0.1632956862449646,
      "learning_rate": 0.00016264350736479777,
      "loss": 0.3785,
      "num_input_tokens_seen": 19030152,
      "step": 29085
    },
    {
      "epoch": 15.246331236897275,
      "grad_norm": 0.16598525643348694,
      "learning_rate": 0.00016247475426915038,
      "loss": 0.4061,
      "num_input_tokens_seen": 19033032,
      "step": 29090
    },
    {
      "epoch": 15.24895178197065,
      "grad_norm": 0.12536583840847015,
      "learning_rate": 0.0001623060717799335,
      "loss": 0.4889,
      "num_input_tokens_seen": 19036424,
      "step": 29095
    },
    {
      "epoch": 15.251572327044025,
      "grad_norm": 0.13607819378376007,
      "learning_rate": 0.0001621374599324338,
      "loss": 0.3188,
      "num_input_tokens_seen": 19039592,
      "step": 29100
    },
    {
      "epoch": 15.2541928721174,
      "grad_norm": 0.12714336812496185,
      "learning_rate": 0.00016196891876192292,
      "loss": 0.3197,
      "num_input_tokens_seen": 19041992,
      "step": 29105
    },
    {
      "epoch": 15.256813417190775,
      "grad_norm": 0.14971210062503815,
      "learning_rate": 0.00016180044830365798,
      "loss": 0.4167,
      "num_input_tokens_seen": 19044968,
      "step": 29110
    },
    {
      "epoch": 15.25943396226415,
      "grad_norm": 0.1463373452425003,
      "learning_rate": 0.00016163204859288066,
      "loss": 0.423,
      "num_input_tokens_seen": 19047656,
      "step": 29115
    },
    {
      "epoch": 15.262054507337526,
      "grad_norm": 0.19346147775650024,
      "learning_rate": 0.00016146371966481866,
      "loss": 0.5335,
      "num_input_tokens_seen": 19051272,
      "step": 29120
    },
    {
      "epoch": 15.264675052410901,
      "grad_norm": 0.14040088653564453,
      "learning_rate": 0.00016129546155468411,
      "loss": 0.4406,
      "num_input_tokens_seen": 19054088,
      "step": 29125
    },
    {
      "epoch": 15.267295597484276,
      "grad_norm": 0.21925486624240875,
      "learning_rate": 0.00016112727429767483,
      "loss": 0.4256,
      "num_input_tokens_seen": 19058248,
      "step": 29130
    },
    {
      "epoch": 15.269916142557651,
      "grad_norm": 0.11048669368028641,
      "learning_rate": 0.00016095915792897392,
      "loss": 0.4883,
      "num_input_tokens_seen": 19063240,
      "step": 29135
    },
    {
      "epoch": 15.272536687631026,
      "grad_norm": 0.11452651768922806,
      "learning_rate": 0.000160791112483749,
      "loss": 0.3853,
      "num_input_tokens_seen": 19065768,
      "step": 29140
    },
    {
      "epoch": 15.275157232704402,
      "grad_norm": 0.17879486083984375,
      "learning_rate": 0.00016062313799715362,
      "loss": 0.533,
      "num_input_tokens_seen": 19069256,
      "step": 29145
    },
    {
      "epoch": 15.277777777777779,
      "grad_norm": 0.20227079093456268,
      "learning_rate": 0.00016045523450432576,
      "loss": 0.4946,
      "num_input_tokens_seen": 19072072,
      "step": 29150
    },
    {
      "epoch": 15.280398322851154,
      "grad_norm": 0.21068747341632843,
      "learning_rate": 0.0001602874020403891,
      "loss": 0.3757,
      "num_input_tokens_seen": 19075272,
      "step": 29155
    },
    {
      "epoch": 15.283018867924529,
      "grad_norm": 0.11787102371454239,
      "learning_rate": 0.00016011964064045232,
      "loss": 0.532,
      "num_input_tokens_seen": 19078120,
      "step": 29160
    },
    {
      "epoch": 15.285639412997904,
      "grad_norm": 0.14784955978393555,
      "learning_rate": 0.00015995195033960936,
      "loss": 0.4105,
      "num_input_tokens_seen": 19080744,
      "step": 29165
    },
    {
      "epoch": 15.28825995807128,
      "grad_norm": 0.09953867644071579,
      "learning_rate": 0.00015978433117293884,
      "loss": 0.3755,
      "num_input_tokens_seen": 19084200,
      "step": 29170
    },
    {
      "epoch": 15.290880503144654,
      "grad_norm": 0.125061497092247,
      "learning_rate": 0.0001596167831755047,
      "loss": 0.4261,
      "num_input_tokens_seen": 19087400,
      "step": 29175
    },
    {
      "epoch": 15.29350104821803,
      "grad_norm": 0.227095827460289,
      "learning_rate": 0.00015944930638235626,
      "loss": 0.3453,
      "num_input_tokens_seen": 19090472,
      "step": 29180
    },
    {
      "epoch": 15.296121593291405,
      "grad_norm": 0.10351806879043579,
      "learning_rate": 0.00015928190082852773,
      "loss": 0.495,
      "num_input_tokens_seen": 19093896,
      "step": 29185
    },
    {
      "epoch": 15.29874213836478,
      "grad_norm": 0.11444662511348724,
      "learning_rate": 0.0001591145665490384,
      "loss": 0.5565,
      "num_input_tokens_seen": 19097384,
      "step": 29190
    },
    {
      "epoch": 15.301362683438155,
      "grad_norm": 0.15322737395763397,
      "learning_rate": 0.00015894730357889287,
      "loss": 0.3989,
      "num_input_tokens_seen": 19101160,
      "step": 29195
    },
    {
      "epoch": 15.30398322851153,
      "grad_norm": 0.10888420790433884,
      "learning_rate": 0.0001587801119530805,
      "loss": 0.3727,
      "num_input_tokens_seen": 19105064,
      "step": 29200
    },
    {
      "epoch": 15.306603773584905,
      "grad_norm": 0.1602950394153595,
      "learning_rate": 0.00015861299170657572,
      "loss": 0.5123,
      "num_input_tokens_seen": 19107272,
      "step": 29205
    },
    {
      "epoch": 15.30922431865828,
      "grad_norm": 0.09919415414333344,
      "learning_rate": 0.00015844594287433834,
      "loss": 0.4821,
      "num_input_tokens_seen": 19111144,
      "step": 29210
    },
    {
      "epoch": 15.311844863731656,
      "grad_norm": 0.12511582672595978,
      "learning_rate": 0.00015827896549131304,
      "loss": 0.3488,
      "num_input_tokens_seen": 19114056,
      "step": 29215
    },
    {
      "epoch": 15.314465408805031,
      "grad_norm": 0.11680418998003006,
      "learning_rate": 0.0001581120595924298,
      "loss": 0.3469,
      "num_input_tokens_seen": 19117416,
      "step": 29220
    },
    {
      "epoch": 15.317085953878406,
      "grad_norm": 0.10910940170288086,
      "learning_rate": 0.00015794522521260317,
      "loss": 0.3623,
      "num_input_tokens_seen": 19120680,
      "step": 29225
    },
    {
      "epoch": 15.319706498951781,
      "grad_norm": 0.08787980675697327,
      "learning_rate": 0.00015777846238673293,
      "loss": 0.3398,
      "num_input_tokens_seen": 19124136,
      "step": 29230
    },
    {
      "epoch": 15.322327044025156,
      "grad_norm": 0.16308815777301788,
      "learning_rate": 0.00015761177114970404,
      "loss": 0.6321,
      "num_input_tokens_seen": 19126984,
      "step": 29235
    },
    {
      "epoch": 15.324947589098532,
      "grad_norm": 0.1516459584236145,
      "learning_rate": 0.0001574451515363865,
      "loss": 0.4009,
      "num_input_tokens_seen": 19129704,
      "step": 29240
    },
    {
      "epoch": 15.327568134171909,
      "grad_norm": 0.17078746855258942,
      "learning_rate": 0.00015727860358163536,
      "loss": 0.5371,
      "num_input_tokens_seen": 19132232,
      "step": 29245
    },
    {
      "epoch": 15.330188679245284,
      "grad_norm": 0.1329393833875656,
      "learning_rate": 0.00015711212732029035,
      "loss": 0.4248,
      "num_input_tokens_seen": 19135016,
      "step": 29250
    },
    {
      "epoch": 15.332809224318659,
      "grad_norm": 0.11369159817695618,
      "learning_rate": 0.00015694572278717627,
      "loss": 0.3706,
      "num_input_tokens_seen": 19137576,
      "step": 29255
    },
    {
      "epoch": 15.335429769392034,
      "grad_norm": 0.16057343780994415,
      "learning_rate": 0.00015677939001710323,
      "loss": 0.4499,
      "num_input_tokens_seen": 19140488,
      "step": 29260
    },
    {
      "epoch": 15.33805031446541,
      "grad_norm": 0.09548091143369675,
      "learning_rate": 0.00015661312904486613,
      "loss": 0.4526,
      "num_input_tokens_seen": 19144456,
      "step": 29265
    },
    {
      "epoch": 15.340670859538784,
      "grad_norm": 0.11418323963880539,
      "learning_rate": 0.00015644693990524483,
      "loss": 0.3413,
      "num_input_tokens_seen": 19148200,
      "step": 29270
    },
    {
      "epoch": 15.34329140461216,
      "grad_norm": 0.09924028068780899,
      "learning_rate": 0.00015628082263300448,
      "loss": 0.4836,
      "num_input_tokens_seen": 19152040,
      "step": 29275
    },
    {
      "epoch": 15.345911949685535,
      "grad_norm": 0.15671001374721527,
      "learning_rate": 0.00015611477726289465,
      "loss": 0.4851,
      "num_input_tokens_seen": 19155272,
      "step": 29280
    },
    {
      "epoch": 15.34853249475891,
      "grad_norm": 0.13555394113063812,
      "learning_rate": 0.00015594880382964994,
      "loss": 0.578,
      "num_input_tokens_seen": 19158216,
      "step": 29285
    },
    {
      "epoch": 15.351153039832285,
      "grad_norm": 0.14511002600193024,
      "learning_rate": 0.00015578290236799037,
      "loss": 0.4003,
      "num_input_tokens_seen": 19161800,
      "step": 29290
    },
    {
      "epoch": 15.35377358490566,
      "grad_norm": 0.16640110313892365,
      "learning_rate": 0.00015561707291262061,
      "loss": 0.3051,
      "num_input_tokens_seen": 19165160,
      "step": 29295
    },
    {
      "epoch": 15.356394129979035,
      "grad_norm": 0.13948868215084076,
      "learning_rate": 0.00015545131549823043,
      "loss": 0.4597,
      "num_input_tokens_seen": 19167752,
      "step": 29300
    },
    {
      "epoch": 15.35901467505241,
      "grad_norm": 0.07450315356254578,
      "learning_rate": 0.0001552856301594942,
      "loss": 0.3818,
      "num_input_tokens_seen": 19171432,
      "step": 29305
    },
    {
      "epoch": 15.361635220125786,
      "grad_norm": 0.164361372590065,
      "learning_rate": 0.00015512001693107126,
      "loss": 0.3382,
      "num_input_tokens_seen": 19175720,
      "step": 29310
    },
    {
      "epoch": 15.364255765199161,
      "grad_norm": 0.10144975036382675,
      "learning_rate": 0.0001549544758476062,
      "loss": 0.4294,
      "num_input_tokens_seen": 19178696,
      "step": 29315
    },
    {
      "epoch": 15.366876310272536,
      "grad_norm": 0.13137729465961456,
      "learning_rate": 0.00015478900694372832,
      "loss": 0.4275,
      "num_input_tokens_seen": 19181480,
      "step": 29320
    },
    {
      "epoch": 15.369496855345911,
      "grad_norm": 0.14177460968494415,
      "learning_rate": 0.00015462361025405196,
      "loss": 0.3566,
      "num_input_tokens_seen": 19184136,
      "step": 29325
    },
    {
      "epoch": 15.372117400419286,
      "grad_norm": 0.11617661267518997,
      "learning_rate": 0.0001544582858131759,
      "loss": 0.5695,
      "num_input_tokens_seen": 19187144,
      "step": 29330
    },
    {
      "epoch": 15.374737945492662,
      "grad_norm": 0.09466109424829483,
      "learning_rate": 0.00015429303365568448,
      "loss": 0.4924,
      "num_input_tokens_seen": 19190440,
      "step": 29335
    },
    {
      "epoch": 15.377358490566039,
      "grad_norm": 0.09923970699310303,
      "learning_rate": 0.00015412785381614625,
      "loss": 0.389,
      "num_input_tokens_seen": 19193736,
      "step": 29340
    },
    {
      "epoch": 15.379979035639414,
      "grad_norm": 0.10886165499687195,
      "learning_rate": 0.000153962746329115,
      "loss": 0.3431,
      "num_input_tokens_seen": 19197416,
      "step": 29345
    },
    {
      "epoch": 15.382599580712789,
      "grad_norm": 0.10802143067121506,
      "learning_rate": 0.0001537977112291295,
      "loss": 0.4507,
      "num_input_tokens_seen": 19200232,
      "step": 29350
    },
    {
      "epoch": 15.385220125786164,
      "grad_norm": 0.27392393350601196,
      "learning_rate": 0.00015363274855071323,
      "loss": 0.3582,
      "num_input_tokens_seen": 19202824,
      "step": 29355
    },
    {
      "epoch": 15.38784067085954,
      "grad_norm": 0.10435309261083603,
      "learning_rate": 0.0001534678583283743,
      "loss": 0.324,
      "num_input_tokens_seen": 19205832,
      "step": 29360
    },
    {
      "epoch": 15.390461215932914,
      "grad_norm": 0.17276489734649658,
      "learning_rate": 0.00015330304059660605,
      "loss": 0.4989,
      "num_input_tokens_seen": 19209128,
      "step": 29365
    },
    {
      "epoch": 15.39308176100629,
      "grad_norm": 0.09555992484092712,
      "learning_rate": 0.00015313829538988628,
      "loss": 0.4477,
      "num_input_tokens_seen": 19211912,
      "step": 29370
    },
    {
      "epoch": 15.395702306079665,
      "grad_norm": 0.18619953095912933,
      "learning_rate": 0.00015297362274267783,
      "loss": 0.5033,
      "num_input_tokens_seen": 19215080,
      "step": 29375
    },
    {
      "epoch": 15.39832285115304,
      "grad_norm": 0.23901520669460297,
      "learning_rate": 0.00015280902268942866,
      "loss": 0.49,
      "num_input_tokens_seen": 19218056,
      "step": 29380
    },
    {
      "epoch": 15.400943396226415,
      "grad_norm": 0.1509523242712021,
      "learning_rate": 0.00015264449526457074,
      "loss": 0.3701,
      "num_input_tokens_seen": 19221096,
      "step": 29385
    },
    {
      "epoch": 15.40356394129979,
      "grad_norm": 0.16055922210216522,
      "learning_rate": 0.00015248004050252178,
      "loss": 0.4359,
      "num_input_tokens_seen": 19223816,
      "step": 29390
    },
    {
      "epoch": 15.406184486373165,
      "grad_norm": 0.10922461748123169,
      "learning_rate": 0.00015231565843768348,
      "loss": 0.393,
      "num_input_tokens_seen": 19226184,
      "step": 29395
    },
    {
      "epoch": 15.40880503144654,
      "grad_norm": 0.10821808129549026,
      "learning_rate": 0.00015215134910444284,
      "loss": 0.4325,
      "num_input_tokens_seen": 19229032,
      "step": 29400
    },
    {
      "epoch": 15.411425576519916,
      "grad_norm": 0.14261871576309204,
      "learning_rate": 0.00015198711253717163,
      "loss": 0.4354,
      "num_input_tokens_seen": 19232584,
      "step": 29405
    },
    {
      "epoch": 15.414046121593291,
      "grad_norm": 0.18763037025928497,
      "learning_rate": 0.00015182294877022596,
      "loss": 0.4313,
      "num_input_tokens_seen": 19235592,
      "step": 29410
    },
    {
      "epoch": 15.416666666666666,
      "grad_norm": 0.15020456910133362,
      "learning_rate": 0.00015165885783794726,
      "loss": 0.512,
      "num_input_tokens_seen": 19239304,
      "step": 29415
    },
    {
      "epoch": 15.419287211740041,
      "grad_norm": 0.11718128621578217,
      "learning_rate": 0.0001514948397746615,
      "loss": 0.4088,
      "num_input_tokens_seen": 19241800,
      "step": 29420
    },
    {
      "epoch": 15.421907756813416,
      "grad_norm": 0.11377912014722824,
      "learning_rate": 0.0001513308946146792,
      "loss": 0.3799,
      "num_input_tokens_seen": 19245256,
      "step": 29425
    },
    {
      "epoch": 15.424528301886792,
      "grad_norm": 0.3933514356613159,
      "learning_rate": 0.0001511670223922959,
      "loss": 0.5387,
      "num_input_tokens_seen": 19247880,
      "step": 29430
    },
    {
      "epoch": 15.427148846960169,
      "grad_norm": 0.11747066676616669,
      "learning_rate": 0.000151003223141792,
      "loss": 0.4533,
      "num_input_tokens_seen": 19251240,
      "step": 29435
    },
    {
      "epoch": 15.429769392033544,
      "grad_norm": 0.13072386384010315,
      "learning_rate": 0.00015083949689743202,
      "loss": 0.514,
      "num_input_tokens_seen": 19254856,
      "step": 29440
    },
    {
      "epoch": 15.432389937106919,
      "grad_norm": 0.12209750711917877,
      "learning_rate": 0.00015067584369346594,
      "loss": 0.4459,
      "num_input_tokens_seen": 19258376,
      "step": 29445
    },
    {
      "epoch": 15.435010482180294,
      "grad_norm": 0.17466650903224945,
      "learning_rate": 0.00015051226356412818,
      "loss": 0.5041,
      "num_input_tokens_seen": 19262312,
      "step": 29450
    },
    {
      "epoch": 15.43763102725367,
      "grad_norm": 0.07764716446399689,
      "learning_rate": 0.00015034875654363754,
      "loss": 0.5811,
      "num_input_tokens_seen": 19266216,
      "step": 29455
    },
    {
      "epoch": 15.440251572327044,
      "grad_norm": 0.16954831779003143,
      "learning_rate": 0.00015018532266619818,
      "loss": 0.6564,
      "num_input_tokens_seen": 19269256,
      "step": 29460
    },
    {
      "epoch": 15.44287211740042,
      "grad_norm": 0.189779594540596,
      "learning_rate": 0.00015002196196599828,
      "loss": 0.4143,
      "num_input_tokens_seen": 19272008,
      "step": 29465
    },
    {
      "epoch": 15.445492662473795,
      "grad_norm": 0.11249633878469467,
      "learning_rate": 0.00014985867447721114,
      "loss": 0.4779,
      "num_input_tokens_seen": 19275304,
      "step": 29470
    },
    {
      "epoch": 15.44811320754717,
      "grad_norm": 0.2796901762485504,
      "learning_rate": 0.00014969546023399467,
      "loss": 0.3543,
      "num_input_tokens_seen": 19277320,
      "step": 29475
    },
    {
      "epoch": 15.450733752620545,
      "grad_norm": 0.11055070161819458,
      "learning_rate": 0.00014953231927049165,
      "loss": 0.5966,
      "num_input_tokens_seen": 19280680,
      "step": 29480
    },
    {
      "epoch": 15.45335429769392,
      "grad_norm": 0.10129046440124512,
      "learning_rate": 0.00014936925162082904,
      "loss": 0.4129,
      "num_input_tokens_seen": 19283560,
      "step": 29485
    },
    {
      "epoch": 15.455974842767295,
      "grad_norm": 0.1435738503932953,
      "learning_rate": 0.00014920625731911863,
      "loss": 0.4434,
      "num_input_tokens_seen": 19287048,
      "step": 29490
    },
    {
      "epoch": 15.45859538784067,
      "grad_norm": 0.16387446224689484,
      "learning_rate": 0.00014904333639945716,
      "loss": 0.4619,
      "num_input_tokens_seen": 19289672,
      "step": 29495
    },
    {
      "epoch": 15.461215932914046,
      "grad_norm": 0.14461423456668854,
      "learning_rate": 0.00014888048889592575,
      "loss": 0.4342,
      "num_input_tokens_seen": 19292712,
      "step": 29500
    },
    {
      "epoch": 15.463836477987421,
      "grad_norm": 0.09996164590120316,
      "learning_rate": 0.00014871771484259046,
      "loss": 0.5092,
      "num_input_tokens_seen": 19296520,
      "step": 29505
    },
    {
      "epoch": 15.466457023060796,
      "grad_norm": 0.11060603708028793,
      "learning_rate": 0.00014855501427350144,
      "loss": 0.436,
      "num_input_tokens_seen": 19299816,
      "step": 29510
    },
    {
      "epoch": 15.469077568134171,
      "grad_norm": 0.10584176331758499,
      "learning_rate": 0.00014839238722269405,
      "loss": 0.3101,
      "num_input_tokens_seen": 19302472,
      "step": 29515
    },
    {
      "epoch": 15.471698113207546,
      "grad_norm": 0.15180449187755585,
      "learning_rate": 0.00014822983372418774,
      "loss": 0.4566,
      "num_input_tokens_seen": 19305640,
      "step": 29520
    },
    {
      "epoch": 15.474318658280922,
      "grad_norm": 0.11711737513542175,
      "learning_rate": 0.00014806735381198705,
      "loss": 0.4003,
      "num_input_tokens_seen": 19308680,
      "step": 29525
    },
    {
      "epoch": 15.476939203354299,
      "grad_norm": 0.13248421251773834,
      "learning_rate": 0.00014790494752008087,
      "loss": 0.3511,
      "num_input_tokens_seen": 19311240,
      "step": 29530
    },
    {
      "epoch": 15.479559748427674,
      "grad_norm": 0.11857296526432037,
      "learning_rate": 0.00014774261488244295,
      "loss": 0.4012,
      "num_input_tokens_seen": 19314632,
      "step": 29535
    },
    {
      "epoch": 15.482180293501049,
      "grad_norm": 0.14137579500675201,
      "learning_rate": 0.00014758035593303114,
      "loss": 0.466,
      "num_input_tokens_seen": 19317736,
      "step": 29540
    },
    {
      "epoch": 15.484800838574424,
      "grad_norm": 0.31738072633743286,
      "learning_rate": 0.00014741817070578817,
      "loss": 0.431,
      "num_input_tokens_seen": 19320936,
      "step": 29545
    },
    {
      "epoch": 15.4874213836478,
      "grad_norm": 0.24056154489517212,
      "learning_rate": 0.0001472560592346414,
      "loss": 0.3589,
      "num_input_tokens_seen": 19324360,
      "step": 29550
    },
    {
      "epoch": 15.490041928721174,
      "grad_norm": 0.12196732312440872,
      "learning_rate": 0.0001470940215535027,
      "loss": 0.4221,
      "num_input_tokens_seen": 19328296,
      "step": 29555
    },
    {
      "epoch": 15.49266247379455,
      "grad_norm": 0.17871640622615814,
      "learning_rate": 0.00014693205769626878,
      "loss": 0.4365,
      "num_input_tokens_seen": 19331336,
      "step": 29560
    },
    {
      "epoch": 15.495283018867925,
      "grad_norm": 0.09332481771707535,
      "learning_rate": 0.00014677016769682028,
      "loss": 0.5194,
      "num_input_tokens_seen": 19334760,
      "step": 29565
    },
    {
      "epoch": 15.4979035639413,
      "grad_norm": 0.1608491837978363,
      "learning_rate": 0.00014660835158902268,
      "loss": 0.5162,
      "num_input_tokens_seen": 19337320,
      "step": 29570
    },
    {
      "epoch": 15.500524109014675,
      "grad_norm": 0.2006625235080719,
      "learning_rate": 0.00014644660940672628,
      "loss": 0.5193,
      "num_input_tokens_seen": 19340584,
      "step": 29575
    },
    {
      "epoch": 15.50314465408805,
      "grad_norm": 0.16578905284404755,
      "learning_rate": 0.0001462849411837656,
      "loss": 0.5361,
      "num_input_tokens_seen": 19344904,
      "step": 29580
    },
    {
      "epoch": 15.505765199161425,
      "grad_norm": 0.19215258955955505,
      "learning_rate": 0.00014612334695395985,
      "loss": 0.4189,
      "num_input_tokens_seen": 19348648,
      "step": 29585
    },
    {
      "epoch": 15.5083857442348,
      "grad_norm": 0.10583518445491791,
      "learning_rate": 0.0001459618267511128,
      "loss": 0.4665,
      "num_input_tokens_seen": 19351816,
      "step": 29590
    },
    {
      "epoch": 15.511006289308176,
      "grad_norm": 0.1486750990152359,
      "learning_rate": 0.00014580038060901256,
      "loss": 0.4422,
      "num_input_tokens_seen": 19355144,
      "step": 29595
    },
    {
      "epoch": 15.51362683438155,
      "grad_norm": 0.15712034702301025,
      "learning_rate": 0.00014563900856143157,
      "loss": 0.3876,
      "num_input_tokens_seen": 19357608,
      "step": 29600
    },
    {
      "epoch": 15.516247379454926,
      "grad_norm": 0.21038316190242767,
      "learning_rate": 0.0001454777106421273,
      "loss": 0.4899,
      "num_input_tokens_seen": 19360936,
      "step": 29605
    },
    {
      "epoch": 15.518867924528301,
      "grad_norm": 0.09496860206127167,
      "learning_rate": 0.00014531648688484127,
      "loss": 0.5029,
      "num_input_tokens_seen": 19364232,
      "step": 29610
    },
    {
      "epoch": 15.521488469601676,
      "grad_norm": 0.09606900066137314,
      "learning_rate": 0.0001451553373233,
      "loss": 0.5075,
      "num_input_tokens_seen": 19367720,
      "step": 29615
    },
    {
      "epoch": 15.524109014675052,
      "grad_norm": 0.20606136322021484,
      "learning_rate": 0.00014499426199121379,
      "loss": 0.4257,
      "num_input_tokens_seen": 19370408,
      "step": 29620
    },
    {
      "epoch": 15.526729559748428,
      "grad_norm": 0.12657004594802856,
      "learning_rate": 0.0001448332609222777,
      "loss": 0.464,
      "num_input_tokens_seen": 19373576,
      "step": 29625
    },
    {
      "epoch": 15.529350104821804,
      "grad_norm": 0.13511104881763458,
      "learning_rate": 0.0001446723341501715,
      "loss": 0.3998,
      "num_input_tokens_seen": 19376232,
      "step": 29630
    },
    {
      "epoch": 15.531970649895179,
      "grad_norm": 0.2118963599205017,
      "learning_rate": 0.00014451148170855922,
      "loss": 0.5898,
      "num_input_tokens_seen": 19379144,
      "step": 29635
    },
    {
      "epoch": 15.534591194968554,
      "grad_norm": 0.1793804168701172,
      "learning_rate": 0.0001443507036310895,
      "loss": 0.3909,
      "num_input_tokens_seen": 19381992,
      "step": 29640
    },
    {
      "epoch": 15.53721174004193,
      "grad_norm": 0.13823315501213074,
      "learning_rate": 0.00014418999995139493,
      "loss": 0.5582,
      "num_input_tokens_seen": 19385416,
      "step": 29645
    },
    {
      "epoch": 15.539832285115304,
      "grad_norm": 0.1552666574716568,
      "learning_rate": 0.00014402937070309325,
      "loss": 0.4136,
      "num_input_tokens_seen": 19388328,
      "step": 29650
    },
    {
      "epoch": 15.54245283018868,
      "grad_norm": 0.10050678998231888,
      "learning_rate": 0.0001438688159197859,
      "loss": 0.3551,
      "num_input_tokens_seen": 19391624,
      "step": 29655
    },
    {
      "epoch": 15.545073375262055,
      "grad_norm": 0.17567197978496552,
      "learning_rate": 0.0001437083356350593,
      "loss": 0.4852,
      "num_input_tokens_seen": 19394376,
      "step": 29660
    },
    {
      "epoch": 15.54769392033543,
      "grad_norm": 0.1927797794342041,
      "learning_rate": 0.0001435479298824841,
      "loss": 0.4887,
      "num_input_tokens_seen": 19397928,
      "step": 29665
    },
    {
      "epoch": 15.550314465408805,
      "grad_norm": 0.16307492554187775,
      "learning_rate": 0.00014338759869561557,
      "loss": 0.4447,
      "num_input_tokens_seen": 19400936,
      "step": 29670
    },
    {
      "epoch": 15.55293501048218,
      "grad_norm": 0.09892912954092026,
      "learning_rate": 0.00014322734210799287,
      "loss": 0.5313,
      "num_input_tokens_seen": 19404360,
      "step": 29675
    },
    {
      "epoch": 15.555555555555555,
      "grad_norm": 0.17309674620628357,
      "learning_rate": 0.0001430671601531398,
      "loss": 0.5074,
      "num_input_tokens_seen": 19406568,
      "step": 29680
    },
    {
      "epoch": 15.55817610062893,
      "grad_norm": 0.09314288944005966,
      "learning_rate": 0.00014290705286456473,
      "loss": 0.4821,
      "num_input_tokens_seen": 19410184,
      "step": 29685
    },
    {
      "epoch": 15.560796645702306,
      "grad_norm": 0.11758531630039215,
      "learning_rate": 0.00014274702027576024,
      "loss": 0.4206,
      "num_input_tokens_seen": 19413480,
      "step": 29690
    },
    {
      "epoch": 15.56341719077568,
      "grad_norm": 0.18618761003017426,
      "learning_rate": 0.00014258706242020354,
      "loss": 0.368,
      "num_input_tokens_seen": 19416328,
      "step": 29695
    },
    {
      "epoch": 15.566037735849056,
      "grad_norm": 0.16715146601200104,
      "learning_rate": 0.00014242717933135558,
      "loss": 0.5202,
      "num_input_tokens_seen": 19419656,
      "step": 29700
    },
    {
      "epoch": 15.568658280922431,
      "grad_norm": 0.132126122713089,
      "learning_rate": 0.0001422673710426625,
      "loss": 0.3655,
      "num_input_tokens_seen": 19424456,
      "step": 29705
    },
    {
      "epoch": 15.571278825995806,
      "grad_norm": 0.15020892024040222,
      "learning_rate": 0.00014210763758755403,
      "loss": 0.4991,
      "num_input_tokens_seen": 19427304,
      "step": 29710
    },
    {
      "epoch": 15.573899371069182,
      "grad_norm": 0.1925744265317917,
      "learning_rate": 0.00014194797899944468,
      "loss": 0.3102,
      "num_input_tokens_seen": 19429704,
      "step": 29715
    },
    {
      "epoch": 15.576519916142558,
      "grad_norm": 0.08250550925731659,
      "learning_rate": 0.00014178839531173344,
      "loss": 0.3635,
      "num_input_tokens_seen": 19433000,
      "step": 29720
    },
    {
      "epoch": 15.579140461215934,
      "grad_norm": 0.08917023986577988,
      "learning_rate": 0.00014162888655780303,
      "loss": 0.3277,
      "num_input_tokens_seen": 19437096,
      "step": 29725
    },
    {
      "epoch": 15.581761006289309,
      "grad_norm": 0.11715896427631378,
      "learning_rate": 0.00014146945277102108,
      "loss": 0.5473,
      "num_input_tokens_seen": 19440232,
      "step": 29730
    },
    {
      "epoch": 15.584381551362684,
      "grad_norm": 0.18106524646282196,
      "learning_rate": 0.00014131009398473938,
      "loss": 0.405,
      "num_input_tokens_seen": 19443528,
      "step": 29735
    },
    {
      "epoch": 15.58700209643606,
      "grad_norm": 0.1462167203426361,
      "learning_rate": 0.00014115081023229376,
      "loss": 0.3838,
      "num_input_tokens_seen": 19448200,
      "step": 29740
    },
    {
      "epoch": 15.589622641509434,
      "grad_norm": 0.21765966713428497,
      "learning_rate": 0.00014099160154700462,
      "loss": 0.3154,
      "num_input_tokens_seen": 19450792,
      "step": 29745
    },
    {
      "epoch": 15.59224318658281,
      "grad_norm": 0.26793378591537476,
      "learning_rate": 0.00014083246796217684,
      "loss": 0.3777,
      "num_input_tokens_seen": 19456744,
      "step": 29750
    },
    {
      "epoch": 15.594863731656185,
      "grad_norm": 0.11989929527044296,
      "learning_rate": 0.00014067340951109898,
      "loss": 0.4881,
      "num_input_tokens_seen": 19459368,
      "step": 29755
    },
    {
      "epoch": 15.59748427672956,
      "grad_norm": 0.16880939900875092,
      "learning_rate": 0.00014051442622704447,
      "loss": 0.4448,
      "num_input_tokens_seen": 19462952,
      "step": 29760
    },
    {
      "epoch": 15.600104821802935,
      "grad_norm": 0.07872996479272842,
      "learning_rate": 0.0001403555181432709,
      "loss": 0.5034,
      "num_input_tokens_seen": 19467720,
      "step": 29765
    },
    {
      "epoch": 15.60272536687631,
      "grad_norm": 0.11236943304538727,
      "learning_rate": 0.00014019668529301977,
      "loss": 0.3198,
      "num_input_tokens_seen": 19470952,
      "step": 29770
    },
    {
      "epoch": 15.605345911949685,
      "grad_norm": 0.11622662097215652,
      "learning_rate": 0.00014003792770951733,
      "loss": 0.4517,
      "num_input_tokens_seen": 19474280,
      "step": 29775
    },
    {
      "epoch": 15.60796645702306,
      "grad_norm": 0.15602439641952515,
      "learning_rate": 0.00013987924542597363,
      "loss": 0.433,
      "num_input_tokens_seen": 19478312,
      "step": 29780
    },
    {
      "epoch": 15.610587002096436,
      "grad_norm": 0.2316567301750183,
      "learning_rate": 0.0001397206384755833,
      "loss": 0.4513,
      "num_input_tokens_seen": 19482536,
      "step": 29785
    },
    {
      "epoch": 15.61320754716981,
      "grad_norm": 0.19181442260742188,
      "learning_rate": 0.00013956210689152526,
      "loss": 0.5256,
      "num_input_tokens_seen": 19486696,
      "step": 29790
    },
    {
      "epoch": 15.615828092243186,
      "grad_norm": 0.10149858146905899,
      "learning_rate": 0.0001394036507069622,
      "loss": 0.2973,
      "num_input_tokens_seen": 19490792,
      "step": 29795
    },
    {
      "epoch": 15.618448637316561,
      "grad_norm": 0.13324496150016785,
      "learning_rate": 0.00013924526995504172,
      "loss": 0.3783,
      "num_input_tokens_seen": 19493768,
      "step": 29800
    },
    {
      "epoch": 15.621069182389936,
      "grad_norm": 0.14796358346939087,
      "learning_rate": 0.00013908696466889486,
      "loss": 0.4821,
      "num_input_tokens_seen": 19496968,
      "step": 29805
    },
    {
      "epoch": 15.623689727463312,
      "grad_norm": 0.10109987109899521,
      "learning_rate": 0.0001389287348816375,
      "loss": 0.3826,
      "num_input_tokens_seen": 19500136,
      "step": 29810
    },
    {
      "epoch": 15.626310272536688,
      "grad_norm": 0.14902392029762268,
      "learning_rate": 0.00013877058062636944,
      "loss": 0.4071,
      "num_input_tokens_seen": 19503432,
      "step": 29815
    },
    {
      "epoch": 15.628930817610064,
      "grad_norm": 0.17407293617725372,
      "learning_rate": 0.00013861250193617498,
      "loss": 0.4647,
      "num_input_tokens_seen": 19506856,
      "step": 29820
    },
    {
      "epoch": 15.631551362683439,
      "grad_norm": 0.17082417011260986,
      "learning_rate": 0.00013845449884412203,
      "loss": 0.4738,
      "num_input_tokens_seen": 19513512,
      "step": 29825
    },
    {
      "epoch": 15.634171907756814,
      "grad_norm": 0.22347621619701385,
      "learning_rate": 0.00013829657138326334,
      "loss": 0.3192,
      "num_input_tokens_seen": 19515624,
      "step": 29830
    },
    {
      "epoch": 15.63679245283019,
      "grad_norm": 0.14316454529762268,
      "learning_rate": 0.00013813871958663526,
      "loss": 0.5115,
      "num_input_tokens_seen": 19518696,
      "step": 29835
    },
    {
      "epoch": 15.639412997903564,
      "grad_norm": 0.2547856271266937,
      "learning_rate": 0.0001379809434872587,
      "loss": 0.414,
      "num_input_tokens_seen": 19521608,
      "step": 29840
    },
    {
      "epoch": 15.64203354297694,
      "grad_norm": 0.16334421932697296,
      "learning_rate": 0.0001378232431181386,
      "loss": 0.4652,
      "num_input_tokens_seen": 19525416,
      "step": 29845
    },
    {
      "epoch": 15.644654088050315,
      "grad_norm": 0.13803333044052124,
      "learning_rate": 0.00013766561851226428,
      "loss": 0.4115,
      "num_input_tokens_seen": 19528584,
      "step": 29850
    },
    {
      "epoch": 15.64727463312369,
      "grad_norm": 0.08077704906463623,
      "learning_rate": 0.00013750806970260886,
      "loss": 0.3688,
      "num_input_tokens_seen": 19531784,
      "step": 29855
    },
    {
      "epoch": 15.649895178197065,
      "grad_norm": 0.31725403666496277,
      "learning_rate": 0.00013735059672212959,
      "loss": 0.3978,
      "num_input_tokens_seen": 19534728,
      "step": 29860
    },
    {
      "epoch": 15.65251572327044,
      "grad_norm": 0.2134450525045395,
      "learning_rate": 0.00013719319960376808,
      "loss": 0.4965,
      "num_input_tokens_seen": 19537288,
      "step": 29865
    },
    {
      "epoch": 15.655136268343815,
      "grad_norm": 0.12635180354118347,
      "learning_rate": 0.00013703587838045017,
      "loss": 0.331,
      "num_input_tokens_seen": 19540296,
      "step": 29870
    },
    {
      "epoch": 15.65775681341719,
      "grad_norm": 0.2319089025259018,
      "learning_rate": 0.00013687863308508568,
      "loss": 0.426,
      "num_input_tokens_seen": 19542504,
      "step": 29875
    },
    {
      "epoch": 15.660377358490566,
      "grad_norm": 0.12571971118450165,
      "learning_rate": 0.00013672146375056849,
      "loss": 0.3751,
      "num_input_tokens_seen": 19546184,
      "step": 29880
    },
    {
      "epoch": 15.66299790356394,
      "grad_norm": 0.11433939635753632,
      "learning_rate": 0.00013656437040977643,
      "loss": 0.3875,
      "num_input_tokens_seen": 19549096,
      "step": 29885
    },
    {
      "epoch": 15.665618448637316,
      "grad_norm": 0.09667988866567612,
      "learning_rate": 0.00013640735309557178,
      "loss": 0.4177,
      "num_input_tokens_seen": 19552296,
      "step": 29890
    },
    {
      "epoch": 15.668238993710691,
      "grad_norm": 0.16895122826099396,
      "learning_rate": 0.00013625041184080078,
      "loss": 0.5407,
      "num_input_tokens_seen": 19556520,
      "step": 29895
    },
    {
      "epoch": 15.670859538784066,
      "grad_norm": 0.15285412967205048,
      "learning_rate": 0.00013609354667829378,
      "loss": 0.4429,
      "num_input_tokens_seen": 19560712,
      "step": 29900
    },
    {
      "epoch": 15.673480083857442,
      "grad_norm": 0.1248236745595932,
      "learning_rate": 0.00013593675764086521,
      "loss": 0.4951,
      "num_input_tokens_seen": 19564072,
      "step": 29905
    },
    {
      "epoch": 15.676100628930818,
      "grad_norm": 0.07747194170951843,
      "learning_rate": 0.00013578004476131356,
      "loss": 0.5015,
      "num_input_tokens_seen": 19567176,
      "step": 29910
    },
    {
      "epoch": 15.678721174004194,
      "grad_norm": 0.1415877491235733,
      "learning_rate": 0.00013562340807242112,
      "loss": 0.4232,
      "num_input_tokens_seen": 19570248,
      "step": 29915
    },
    {
      "epoch": 15.681341719077569,
      "grad_norm": 0.11030131578445435,
      "learning_rate": 0.00013546684760695472,
      "loss": 0.4886,
      "num_input_tokens_seen": 19573000,
      "step": 29920
    },
    {
      "epoch": 15.683962264150944,
      "grad_norm": 0.2323152869939804,
      "learning_rate": 0.00013531036339766494,
      "loss": 0.4766,
      "num_input_tokens_seen": 19575272,
      "step": 29925
    },
    {
      "epoch": 15.68658280922432,
      "grad_norm": 0.2524285316467285,
      "learning_rate": 0.00013515395547728675,
      "loss": 0.4275,
      "num_input_tokens_seen": 19577544,
      "step": 29930
    },
    {
      "epoch": 15.689203354297694,
      "grad_norm": 0.10390322655439377,
      "learning_rate": 0.00013499762387853866,
      "loss": 0.3207,
      "num_input_tokens_seen": 19581192,
      "step": 29935
    },
    {
      "epoch": 15.69182389937107,
      "grad_norm": 0.14673225581645966,
      "learning_rate": 0.00013484136863412333,
      "loss": 0.3889,
      "num_input_tokens_seen": 19584456,
      "step": 29940
    },
    {
      "epoch": 15.694444444444445,
      "grad_norm": 0.21369695663452148,
      "learning_rate": 0.00013468518977672773,
      "loss": 0.485,
      "num_input_tokens_seen": 19587176,
      "step": 29945
    },
    {
      "epoch": 15.69706498951782,
      "grad_norm": 0.16249892115592957,
      "learning_rate": 0.0001345290873390227,
      "loss": 0.4068,
      "num_input_tokens_seen": 19590664,
      "step": 29950
    },
    {
      "epoch": 15.699685534591195,
      "grad_norm": 0.23378436267375946,
      "learning_rate": 0.00013437306135366322,
      "loss": 0.4221,
      "num_input_tokens_seen": 19594792,
      "step": 29955
    },
    {
      "epoch": 15.70230607966457,
      "grad_norm": 0.0963955819606781,
      "learning_rate": 0.00013421711185328806,
      "loss": 0.4201,
      "num_input_tokens_seen": 19597352,
      "step": 29960
    },
    {
      "epoch": 15.704926624737945,
      "grad_norm": 0.2184581756591797,
      "learning_rate": 0.00013406123887051984,
      "loss": 0.37,
      "num_input_tokens_seen": 19600168,
      "step": 29965
    },
    {
      "epoch": 15.70754716981132,
      "grad_norm": 0.13296127319335938,
      "learning_rate": 0.0001339054424379656,
      "loss": 0.502,
      "num_input_tokens_seen": 19603560,
      "step": 29970
    },
    {
      "epoch": 15.710167714884696,
      "grad_norm": 0.11603502184152603,
      "learning_rate": 0.00013374972258821621,
      "loss": 0.3559,
      "num_input_tokens_seen": 19607240,
      "step": 29975
    },
    {
      "epoch": 15.71278825995807,
      "grad_norm": 0.1655980944633484,
      "learning_rate": 0.00013359407935384642,
      "loss": 0.3488,
      "num_input_tokens_seen": 19610088,
      "step": 29980
    },
    {
      "epoch": 15.715408805031446,
      "grad_norm": 0.17699366807937622,
      "learning_rate": 0.0001334385127674152,
      "loss": 0.5041,
      "num_input_tokens_seen": 19613064,
      "step": 29985
    },
    {
      "epoch": 15.718029350104821,
      "grad_norm": 0.1319781392812729,
      "learning_rate": 0.00013328302286146515,
      "loss": 0.3743,
      "num_input_tokens_seen": 19616264,
      "step": 29990
    },
    {
      "epoch": 15.720649895178196,
      "grad_norm": 0.12283840030431747,
      "learning_rate": 0.00013312760966852283,
      "loss": 0.4332,
      "num_input_tokens_seen": 19619560,
      "step": 29995
    },
    {
      "epoch": 15.723270440251572,
      "grad_norm": 0.1548529863357544,
      "learning_rate": 0.00013297227322109912,
      "loss": 0.4431,
      "num_input_tokens_seen": 19622088,
      "step": 30000
    },
    {
      "epoch": 15.725890985324948,
      "grad_norm": 0.12886467576026917,
      "learning_rate": 0.00013281701355168852,
      "loss": 0.3889,
      "num_input_tokens_seen": 19626312,
      "step": 30005
    },
    {
      "epoch": 15.728511530398324,
      "grad_norm": 0.22196197509765625,
      "learning_rate": 0.00013266183069276982,
      "loss": 0.3724,
      "num_input_tokens_seen": 19628840,
      "step": 30010
    },
    {
      "epoch": 15.731132075471699,
      "grad_norm": 0.18752916157245636,
      "learning_rate": 0.00013250672467680514,
      "loss": 0.3789,
      "num_input_tokens_seen": 19631720,
      "step": 30015
    },
    {
      "epoch": 15.733752620545074,
      "grad_norm": 0.15424689650535583,
      "learning_rate": 0.00013235169553624127,
      "loss": 0.5228,
      "num_input_tokens_seen": 19634312,
      "step": 30020
    },
    {
      "epoch": 15.73637316561845,
      "grad_norm": 0.23509186506271362,
      "learning_rate": 0.00013219674330350816,
      "loss": 0.4338,
      "num_input_tokens_seen": 19637064,
      "step": 30025
    },
    {
      "epoch": 15.738993710691824,
      "grad_norm": 0.08638462424278259,
      "learning_rate": 0.00013204186801102024,
      "loss": 0.4564,
      "num_input_tokens_seen": 19640552,
      "step": 30030
    },
    {
      "epoch": 15.7416142557652,
      "grad_norm": 0.19679154455661774,
      "learning_rate": 0.0001318870696911758,
      "loss": 0.4518,
      "num_input_tokens_seen": 19643624,
      "step": 30035
    },
    {
      "epoch": 15.744234800838575,
      "grad_norm": 0.14790286123752594,
      "learning_rate": 0.00013173234837635656,
      "loss": 0.364,
      "num_input_tokens_seen": 19646280,
      "step": 30040
    },
    {
      "epoch": 15.74685534591195,
      "grad_norm": 0.14415015280246735,
      "learning_rate": 0.00013157770409892878,
      "loss": 0.4169,
      "num_input_tokens_seen": 19649160,
      "step": 30045
    },
    {
      "epoch": 15.749475890985325,
      "grad_norm": 0.21259967982769012,
      "learning_rate": 0.00013142313689124197,
      "loss": 0.5143,
      "num_input_tokens_seen": 19652616,
      "step": 30050
    },
    {
      "epoch": 15.7520964360587,
      "grad_norm": 0.4472542107105255,
      "learning_rate": 0.00013126864678562994,
      "loss": 0.3659,
      "num_input_tokens_seen": 19655208,
      "step": 30055
    },
    {
      "epoch": 15.754716981132075,
      "grad_norm": 0.11045742779970169,
      "learning_rate": 0.00013111423381441034,
      "loss": 0.4623,
      "num_input_tokens_seen": 19657928,
      "step": 30060
    },
    {
      "epoch": 15.75733752620545,
      "grad_norm": 0.12293179333209991,
      "learning_rate": 0.00013095989800988468,
      "loss": 0.4144,
      "num_input_tokens_seen": 19661544,
      "step": 30065
    },
    {
      "epoch": 15.759958071278826,
      "grad_norm": 0.16555143892765045,
      "learning_rate": 0.000130805639404338,
      "loss": 0.4693,
      "num_input_tokens_seen": 19664776,
      "step": 30070
    },
    {
      "epoch": 15.7625786163522,
      "grad_norm": 0.11192033439874649,
      "learning_rate": 0.0001306514580300397,
      "loss": 0.4304,
      "num_input_tokens_seen": 19668136,
      "step": 30075
    },
    {
      "epoch": 15.765199161425576,
      "grad_norm": 0.16332955658435822,
      "learning_rate": 0.00013049735391924244,
      "loss": 0.6555,
      "num_input_tokens_seen": 19671592,
      "step": 30080
    },
    {
      "epoch": 15.767819706498951,
      "grad_norm": 0.16896510124206543,
      "learning_rate": 0.00013034332710418328,
      "loss": 0.4726,
      "num_input_tokens_seen": 19676136,
      "step": 30085
    },
    {
      "epoch": 15.770440251572326,
      "grad_norm": 0.09971621632575989,
      "learning_rate": 0.00013018937761708298,
      "loss": 0.3921,
      "num_input_tokens_seen": 19679368,
      "step": 30090
    },
    {
      "epoch": 15.773060796645701,
      "grad_norm": 0.07062266767024994,
      "learning_rate": 0.0001300355054901457,
      "loss": 0.3886,
      "num_input_tokens_seen": 19682856,
      "step": 30095
    },
    {
      "epoch": 15.775681341719078,
      "grad_norm": 0.6948845982551575,
      "learning_rate": 0.0001298817107555599,
      "loss": 0.5437,
      "num_input_tokens_seen": 19685480,
      "step": 30100
    },
    {
      "epoch": 15.778301886792454,
      "grad_norm": 0.10755400359630585,
      "learning_rate": 0.0001297279934454978,
      "loss": 0.3343,
      "num_input_tokens_seen": 19688104,
      "step": 30105
    },
    {
      "epoch": 15.780922431865829,
      "grad_norm": 0.242635115981102,
      "learning_rate": 0.000129574353592115,
      "loss": 0.4393,
      "num_input_tokens_seen": 19691656,
      "step": 30110
    },
    {
      "epoch": 15.783542976939204,
      "grad_norm": 0.146264910697937,
      "learning_rate": 0.00012942079122755162,
      "loss": 0.4302,
      "num_input_tokens_seen": 19695336,
      "step": 30115
    },
    {
      "epoch": 15.786163522012579,
      "grad_norm": 0.0929798111319542,
      "learning_rate": 0.00012926730638393075,
      "loss": 0.4519,
      "num_input_tokens_seen": 19698088,
      "step": 30120
    },
    {
      "epoch": 15.788784067085954,
      "grad_norm": 0.11591898649930954,
      "learning_rate": 0.0001291138990933598,
      "loss": 0.445,
      "num_input_tokens_seen": 19701384,
      "step": 30125
    },
    {
      "epoch": 15.79140461215933,
      "grad_norm": 0.18405234813690186,
      "learning_rate": 0.00012896056938792994,
      "loss": 0.3714,
      "num_input_tokens_seen": 19705800,
      "step": 30130
    },
    {
      "epoch": 15.794025157232705,
      "grad_norm": 0.19249223172664642,
      "learning_rate": 0.000128807317299716,
      "loss": 0.3392,
      "num_input_tokens_seen": 19709384,
      "step": 30135
    },
    {
      "epoch": 15.79664570230608,
      "grad_norm": 0.1108604222536087,
      "learning_rate": 0.00012865414286077637,
      "loss": 0.3897,
      "num_input_tokens_seen": 19712072,
      "step": 30140
    },
    {
      "epoch": 15.799266247379455,
      "grad_norm": 0.11963029205799103,
      "learning_rate": 0.00012850104610315365,
      "loss": 0.4345,
      "num_input_tokens_seen": 19715528,
      "step": 30145
    },
    {
      "epoch": 15.80188679245283,
      "grad_norm": 0.09624426811933517,
      "learning_rate": 0.00012834802705887372,
      "loss": 0.482,
      "num_input_tokens_seen": 19719016,
      "step": 30150
    },
    {
      "epoch": 15.804507337526205,
      "grad_norm": 0.16578450798988342,
      "learning_rate": 0.00012819508575994643,
      "loss": 0.3524,
      "num_input_tokens_seen": 19722344,
      "step": 30155
    },
    {
      "epoch": 15.80712788259958,
      "grad_norm": 0.10917363315820694,
      "learning_rate": 0.0001280422222383656,
      "loss": 0.5179,
      "num_input_tokens_seen": 19725768,
      "step": 30160
    },
    {
      "epoch": 15.809748427672956,
      "grad_norm": 0.20051728188991547,
      "learning_rate": 0.00012788943652610818,
      "loss": 0.5744,
      "num_input_tokens_seen": 19728200,
      "step": 30165
    },
    {
      "epoch": 15.81236897274633,
      "grad_norm": 0.17862147092819214,
      "learning_rate": 0.0001277367286551356,
      "loss": 0.431,
      "num_input_tokens_seen": 19730920,
      "step": 30170
    },
    {
      "epoch": 15.814989517819706,
      "grad_norm": 0.14850518107414246,
      "learning_rate": 0.00012758409865739213,
      "loss": 0.4876,
      "num_input_tokens_seen": 19733800,
      "step": 30175
    },
    {
      "epoch": 15.817610062893081,
      "grad_norm": 0.23274271190166473,
      "learning_rate": 0.00012743154656480655,
      "loss": 0.4013,
      "num_input_tokens_seen": 19736040,
      "step": 30180
    },
    {
      "epoch": 15.820230607966456,
      "grad_norm": 0.32181406021118164,
      "learning_rate": 0.00012727907240929094,
      "loss": 0.4771,
      "num_input_tokens_seen": 19739112,
      "step": 30185
    },
    {
      "epoch": 15.822851153039831,
      "grad_norm": 0.14938516914844513,
      "learning_rate": 0.00012712667622274127,
      "loss": 0.4913,
      "num_input_tokens_seen": 19742984,
      "step": 30190
    },
    {
      "epoch": 15.825471698113208,
      "grad_norm": 0.10481691360473633,
      "learning_rate": 0.000126974358037037,
      "loss": 0.6454,
      "num_input_tokens_seen": 19746120,
      "step": 30195
    },
    {
      "epoch": 15.828092243186584,
      "grad_norm": 0.12117523699998856,
      "learning_rate": 0.00012682211788404114,
      "loss": 0.442,
      "num_input_tokens_seen": 19749992,
      "step": 30200
    },
    {
      "epoch": 15.830712788259959,
      "grad_norm": 0.13853605091571808,
      "learning_rate": 0.0001266699557956008,
      "loss": 0.5493,
      "num_input_tokens_seen": 19753128,
      "step": 30205
    },
    {
      "epoch": 15.833333333333334,
      "grad_norm": 0.08949607610702515,
      "learning_rate": 0.00012651787180354657,
      "loss": 0.5226,
      "num_input_tokens_seen": 19756328,
      "step": 30210
    },
    {
      "epoch": 15.835953878406709,
      "grad_norm": 0.21860387921333313,
      "learning_rate": 0.00012636586593969262,
      "loss": 0.4069,
      "num_input_tokens_seen": 19760456,
      "step": 30215
    },
    {
      "epoch": 15.838574423480084,
      "grad_norm": 0.13561254739761353,
      "learning_rate": 0.000126213938235837,
      "loss": 0.3524,
      "num_input_tokens_seen": 19764168,
      "step": 30220
    },
    {
      "epoch": 15.84119496855346,
      "grad_norm": 0.24286134541034698,
      "learning_rate": 0.0001260620887237611,
      "loss": 0.5639,
      "num_input_tokens_seen": 19768040,
      "step": 30225
    },
    {
      "epoch": 15.843815513626835,
      "grad_norm": 0.18749533593654633,
      "learning_rate": 0.00012591031743523006,
      "loss": 0.4315,
      "num_input_tokens_seen": 19771144,
      "step": 30230
    },
    {
      "epoch": 15.84643605870021,
      "grad_norm": 0.2577110528945923,
      "learning_rate": 0.00012575862440199277,
      "loss": 0.4261,
      "num_input_tokens_seen": 19774536,
      "step": 30235
    },
    {
      "epoch": 15.849056603773585,
      "grad_norm": 0.1109074130654335,
      "learning_rate": 0.00012560700965578165,
      "loss": 0.3428,
      "num_input_tokens_seen": 19778024,
      "step": 30240
    },
    {
      "epoch": 15.85167714884696,
      "grad_norm": 0.12536075711250305,
      "learning_rate": 0.0001254554732283129,
      "loss": 0.4901,
      "num_input_tokens_seen": 19780936,
      "step": 30245
    },
    {
      "epoch": 15.854297693920335,
      "grad_norm": 0.1027517095208168,
      "learning_rate": 0.0001253040151512862,
      "loss": 0.3598,
      "num_input_tokens_seen": 19784392,
      "step": 30250
    },
    {
      "epoch": 15.85691823899371,
      "grad_norm": 0.13746914267539978,
      "learning_rate": 0.0001251526354563846,
      "loss": 0.3933,
      "num_input_tokens_seen": 19787336,
      "step": 30255
    },
    {
      "epoch": 15.859538784067086,
      "grad_norm": 0.12482558935880661,
      "learning_rate": 0.0001250013341752752,
      "loss": 0.4666,
      "num_input_tokens_seen": 19790664,
      "step": 30260
    },
    {
      "epoch": 15.86215932914046,
      "grad_norm": 0.17366154491901398,
      "learning_rate": 0.00012485011133960843,
      "loss": 0.6768,
      "num_input_tokens_seen": 19793320,
      "step": 30265
    },
    {
      "epoch": 15.864779874213836,
      "grad_norm": 0.11048301309347153,
      "learning_rate": 0.00012469896698101863,
      "loss": 0.3977,
      "num_input_tokens_seen": 19796360,
      "step": 30270
    },
    {
      "epoch": 15.867400419287211,
      "grad_norm": 0.5663634538650513,
      "learning_rate": 0.00012454790113112325,
      "loss": 0.4694,
      "num_input_tokens_seen": 19803272,
      "step": 30275
    },
    {
      "epoch": 15.870020964360586,
      "grad_norm": 0.14283159375190735,
      "learning_rate": 0.00012439691382152345,
      "loss": 0.4944,
      "num_input_tokens_seen": 19812264,
      "step": 30280
    },
    {
      "epoch": 15.872641509433961,
      "grad_norm": 0.1146886944770813,
      "learning_rate": 0.00012424600508380412,
      "loss": 0.4437,
      "num_input_tokens_seen": 19815144,
      "step": 30285
    },
    {
      "epoch": 15.875262054507338,
      "grad_norm": 0.08764101564884186,
      "learning_rate": 0.00012409517494953377,
      "loss": 0.5936,
      "num_input_tokens_seen": 19819368,
      "step": 30290
    },
    {
      "epoch": 15.877882599580714,
      "grad_norm": 0.22255128622055054,
      "learning_rate": 0.00012394442345026418,
      "loss": 0.3816,
      "num_input_tokens_seen": 19821736,
      "step": 30295
    },
    {
      "epoch": 15.880503144654089,
      "grad_norm": 0.14155110716819763,
      "learning_rate": 0.00012379375061753118,
      "loss": 0.6309,
      "num_input_tokens_seen": 19825320,
      "step": 30300
    },
    {
      "epoch": 15.883123689727464,
      "grad_norm": 0.20991159975528717,
      "learning_rate": 0.00012364315648285353,
      "loss": 0.4953,
      "num_input_tokens_seen": 19829000,
      "step": 30305
    },
    {
      "epoch": 15.885744234800839,
      "grad_norm": 0.13412798941135406,
      "learning_rate": 0.00012349264107773363,
      "loss": 0.4218,
      "num_input_tokens_seen": 19831592,
      "step": 30310
    },
    {
      "epoch": 15.888364779874214,
      "grad_norm": 0.1305171549320221,
      "learning_rate": 0.00012334220443365785,
      "loss": 0.3437,
      "num_input_tokens_seen": 19834664,
      "step": 30315
    },
    {
      "epoch": 15.89098532494759,
      "grad_norm": 0.20473235845565796,
      "learning_rate": 0.00012319184658209575,
      "loss": 0.4536,
      "num_input_tokens_seen": 19837640,
      "step": 30320
    },
    {
      "epoch": 15.893605870020965,
      "grad_norm": 0.09170785546302795,
      "learning_rate": 0.00012304156755450063,
      "loss": 0.3952,
      "num_input_tokens_seen": 19841192,
      "step": 30325
    },
    {
      "epoch": 15.89622641509434,
      "grad_norm": 0.107548788189888,
      "learning_rate": 0.00012289136738230906,
      "loss": 0.4688,
      "num_input_tokens_seen": 19845032,
      "step": 30330
    },
    {
      "epoch": 15.898846960167715,
      "grad_norm": 0.10473079979419708,
      "learning_rate": 0.00012274124609694092,
      "loss": 0.3581,
      "num_input_tokens_seen": 19848232,
      "step": 30335
    },
    {
      "epoch": 15.90146750524109,
      "grad_norm": 0.12835882604122162,
      "learning_rate": 0.00012259120372980014,
      "loss": 0.4974,
      "num_input_tokens_seen": 19851336,
      "step": 30340
    },
    {
      "epoch": 15.904088050314465,
      "grad_norm": 0.18420884013175964,
      "learning_rate": 0.0001224412403122739,
      "loss": 0.4717,
      "num_input_tokens_seen": 19856040,
      "step": 30345
    },
    {
      "epoch": 15.90670859538784,
      "grad_norm": 0.12402849644422531,
      "learning_rate": 0.0001222913558757328,
      "loss": 0.4774,
      "num_input_tokens_seen": 19859176,
      "step": 30350
    },
    {
      "epoch": 15.909329140461216,
      "grad_norm": 0.16329079866409302,
      "learning_rate": 0.00012214155045153085,
      "loss": 0.3319,
      "num_input_tokens_seen": 19862056,
      "step": 30355
    },
    {
      "epoch": 15.91194968553459,
      "grad_norm": 0.17800870537757874,
      "learning_rate": 0.00012199182407100584,
      "loss": 0.3952,
      "num_input_tokens_seen": 19864968,
      "step": 30360
    },
    {
      "epoch": 15.914570230607966,
      "grad_norm": 0.06386345624923706,
      "learning_rate": 0.00012184217676547855,
      "loss": 0.354,
      "num_input_tokens_seen": 19868456,
      "step": 30365
    },
    {
      "epoch": 15.917190775681341,
      "grad_norm": 0.13138803839683533,
      "learning_rate": 0.00012169260856625358,
      "loss": 0.4631,
      "num_input_tokens_seen": 19872424,
      "step": 30370
    },
    {
      "epoch": 15.919811320754716,
      "grad_norm": 0.17345380783081055,
      "learning_rate": 0.000121543119504619,
      "loss": 0.4805,
      "num_input_tokens_seen": 19875400,
      "step": 30375
    },
    {
      "epoch": 15.922431865828091,
      "grad_norm": 0.1667906939983368,
      "learning_rate": 0.00012139370961184626,
      "loss": 0.3617,
      "num_input_tokens_seen": 19878184,
      "step": 30380
    },
    {
      "epoch": 15.925052410901468,
      "grad_norm": 0.18825116753578186,
      "learning_rate": 0.00012124437891918994,
      "loss": 0.5013,
      "num_input_tokens_seen": 19880744,
      "step": 30385
    },
    {
      "epoch": 15.927672955974844,
      "grad_norm": 0.10775330662727356,
      "learning_rate": 0.0001210951274578887,
      "loss": 0.4548,
      "num_input_tokens_seen": 19883784,
      "step": 30390
    },
    {
      "epoch": 15.930293501048219,
      "grad_norm": 0.17498597502708435,
      "learning_rate": 0.00012094595525916379,
      "loss": 0.4876,
      "num_input_tokens_seen": 19887304,
      "step": 30395
    },
    {
      "epoch": 15.932914046121594,
      "grad_norm": 0.13219183683395386,
      "learning_rate": 0.0001207968623542206,
      "loss": 0.4844,
      "num_input_tokens_seen": 19890312,
      "step": 30400
    },
    {
      "epoch": 15.935534591194969,
      "grad_norm": 0.08731694519519806,
      "learning_rate": 0.00012064784877424778,
      "loss": 0.393,
      "num_input_tokens_seen": 19893704,
      "step": 30405
    },
    {
      "epoch": 15.938155136268344,
      "grad_norm": 0.2344844937324524,
      "learning_rate": 0.00012049891455041695,
      "loss": 0.3653,
      "num_input_tokens_seen": 19896552,
      "step": 30410
    },
    {
      "epoch": 15.94077568134172,
      "grad_norm": 0.2529863119125366,
      "learning_rate": 0.00012035005971388379,
      "loss": 0.5205,
      "num_input_tokens_seen": 19899592,
      "step": 30415
    },
    {
      "epoch": 15.943396226415095,
      "grad_norm": 0.20304395258426666,
      "learning_rate": 0.0001202012842957867,
      "loss": 0.5095,
      "num_input_tokens_seen": 19902952,
      "step": 30420
    },
    {
      "epoch": 15.94601677148847,
      "grad_norm": 0.10525041818618774,
      "learning_rate": 0.00012005258832724797,
      "loss": 0.4226,
      "num_input_tokens_seen": 19906344,
      "step": 30425
    },
    {
      "epoch": 15.948637316561845,
      "grad_norm": 0.3315713703632355,
      "learning_rate": 0.00011990397183937324,
      "loss": 0.4422,
      "num_input_tokens_seen": 19909864,
      "step": 30430
    },
    {
      "epoch": 15.95125786163522,
      "grad_norm": 0.11578550934791565,
      "learning_rate": 0.00011975543486325108,
      "loss": 0.4012,
      "num_input_tokens_seen": 19913160,
      "step": 30435
    },
    {
      "epoch": 15.953878406708595,
      "grad_norm": 0.18171091377735138,
      "learning_rate": 0.00011960697742995392,
      "loss": 0.4271,
      "num_input_tokens_seen": 19917160,
      "step": 30440
    },
    {
      "epoch": 15.95649895178197,
      "grad_norm": 0.09720627218484879,
      "learning_rate": 0.00011945859957053746,
      "loss": 0.4094,
      "num_input_tokens_seen": 19921672,
      "step": 30445
    },
    {
      "epoch": 15.959119496855346,
      "grad_norm": 0.1221361979842186,
      "learning_rate": 0.00011931030131604036,
      "loss": 0.4057,
      "num_input_tokens_seen": 19924392,
      "step": 30450
    },
    {
      "epoch": 15.96174004192872,
      "grad_norm": 0.12983867526054382,
      "learning_rate": 0.00011916208269748507,
      "loss": 0.4026,
      "num_input_tokens_seen": 19927720,
      "step": 30455
    },
    {
      "epoch": 15.964360587002096,
      "grad_norm": 0.2331348955631256,
      "learning_rate": 0.00011901394374587743,
      "loss": 0.4635,
      "num_input_tokens_seen": 19931112,
      "step": 30460
    },
    {
      "epoch": 15.966981132075471,
      "grad_norm": 0.11875573545694351,
      "learning_rate": 0.00011886588449220609,
      "loss": 0.3874,
      "num_input_tokens_seen": 19934152,
      "step": 30465
    },
    {
      "epoch": 15.969601677148846,
      "grad_norm": 0.18260733783245087,
      "learning_rate": 0.00011871790496744351,
      "loss": 0.4959,
      "num_input_tokens_seen": 19937160,
      "step": 30470
    },
    {
      "epoch": 15.972222222222221,
      "grad_norm": 0.11683410406112671,
      "learning_rate": 0.00011857000520254546,
      "loss": 0.5016,
      "num_input_tokens_seen": 19940424,
      "step": 30475
    },
    {
      "epoch": 15.974842767295598,
      "grad_norm": 0.25619518756866455,
      "learning_rate": 0.0001184221852284506,
      "loss": 0.3359,
      "num_input_tokens_seen": 19942728,
      "step": 30480
    },
    {
      "epoch": 15.977463312368974,
      "grad_norm": 0.1906435638666153,
      "learning_rate": 0.00011827444507608143,
      "loss": 0.4864,
      "num_input_tokens_seen": 19946056,
      "step": 30485
    },
    {
      "epoch": 15.980083857442349,
      "grad_norm": 0.08652877807617188,
      "learning_rate": 0.00011812678477634325,
      "loss": 0.5346,
      "num_input_tokens_seen": 19950632,
      "step": 30490
    },
    {
      "epoch": 15.982704402515724,
      "grad_norm": 0.1518186777830124,
      "learning_rate": 0.0001179792043601251,
      "loss": 0.383,
      "num_input_tokens_seen": 19954280,
      "step": 30495
    },
    {
      "epoch": 15.985324947589099,
      "grad_norm": 0.25303637981414795,
      "learning_rate": 0.00011783170385829905,
      "loss": 0.3323,
      "num_input_tokens_seen": 19957768,
      "step": 30500
    },
    {
      "epoch": 15.987945492662474,
      "grad_norm": 0.16528518497943878,
      "learning_rate": 0.00011768428330172071,
      "loss": 0.482,
      "num_input_tokens_seen": 19960328,
      "step": 30505
    },
    {
      "epoch": 15.99056603773585,
      "grad_norm": 0.1157679632306099,
      "learning_rate": 0.00011753694272122856,
      "loss": 0.4072,
      "num_input_tokens_seen": 19963272,
      "step": 30510
    },
    {
      "epoch": 15.993186582809225,
      "grad_norm": 0.11916497349739075,
      "learning_rate": 0.00011738968214764456,
      "loss": 0.3521,
      "num_input_tokens_seen": 19966376,
      "step": 30515
    },
    {
      "epoch": 15.9958071278826,
      "grad_norm": 0.16189442574977875,
      "learning_rate": 0.00011724250161177391,
      "loss": 0.4643,
      "num_input_tokens_seen": 19968968,
      "step": 30520
    },
    {
      "epoch": 15.998427672955975,
      "grad_norm": 0.19227950274944305,
      "learning_rate": 0.00011709540114440525,
      "loss": 0.3203,
      "num_input_tokens_seen": 19971624,
      "step": 30525
    },
    {
      "epoch": 16.0,
      "eval_loss": 0.45373088121414185,
      "eval_runtime": 13.3269,
      "eval_samples_per_second": 63.631,
      "eval_steps_per_second": 15.908,
      "num_input_tokens_seen": 19973408,
      "step": 30528
    },
    {
      "epoch": 16.00104821802935,
      "grad_norm": 0.19076311588287354,
      "learning_rate": 0.00011694838077631043,
      "loss": 0.4607,
      "num_input_tokens_seen": 19974496,
      "step": 30530
    },
    {
      "epoch": 16.003668763102727,
      "grad_norm": 0.11196635663509369,
      "learning_rate": 0.0001168014405382441,
      "loss": 0.4122,
      "num_input_tokens_seen": 19977888,
      "step": 30535
    },
    {
      "epoch": 16.0062893081761,
      "grad_norm": 0.29279378056526184,
      "learning_rate": 0.0001166545804609448,
      "loss": 0.4075,
      "num_input_tokens_seen": 19980480,
      "step": 30540
    },
    {
      "epoch": 16.008909853249477,
      "grad_norm": 0.13065144419670105,
      "learning_rate": 0.00011650780057513367,
      "loss": 0.4849,
      "num_input_tokens_seen": 19983200,
      "step": 30545
    },
    {
      "epoch": 16.01153039832285,
      "grad_norm": 0.15235944092273712,
      "learning_rate": 0.00011636110091151553,
      "loss": 0.4022,
      "num_input_tokens_seen": 19987200,
      "step": 30550
    },
    {
      "epoch": 16.014150943396228,
      "grad_norm": 0.21202565729618073,
      "learning_rate": 0.00011621448150077834,
      "loss": 0.4311,
      "num_input_tokens_seen": 19989920,
      "step": 30555
    },
    {
      "epoch": 16.0167714884696,
      "grad_norm": 0.10703890770673752,
      "learning_rate": 0.0001160679423735933,
      "loss": 0.4008,
      "num_input_tokens_seen": 19993376,
      "step": 30560
    },
    {
      "epoch": 16.019392033542978,
      "grad_norm": 0.24813002347946167,
      "learning_rate": 0.00011592148356061455,
      "loss": 0.384,
      "num_input_tokens_seen": 19995264,
      "step": 30565
    },
    {
      "epoch": 16.02201257861635,
      "grad_norm": 0.17283999919891357,
      "learning_rate": 0.00011577510509247951,
      "loss": 0.6026,
      "num_input_tokens_seen": 19997824,
      "step": 30570
    },
    {
      "epoch": 16.02463312368973,
      "grad_norm": 0.18117833137512207,
      "learning_rate": 0.00011562880699980904,
      "loss": 0.462,
      "num_input_tokens_seen": 20000640,
      "step": 30575
    },
    {
      "epoch": 16.0272536687631,
      "grad_norm": 0.228819340467453,
      "learning_rate": 0.00011548258931320704,
      "loss": 0.356,
      "num_input_tokens_seen": 20003264,
      "step": 30580
    },
    {
      "epoch": 16.02987421383648,
      "grad_norm": 0.1343127340078354,
      "learning_rate": 0.00011533645206326049,
      "loss": 0.4317,
      "num_input_tokens_seen": 20006688,
      "step": 30585
    },
    {
      "epoch": 16.032494758909852,
      "grad_norm": 0.30361688137054443,
      "learning_rate": 0.00011519039528053999,
      "loss": 0.4503,
      "num_input_tokens_seen": 20009280,
      "step": 30590
    },
    {
      "epoch": 16.03511530398323,
      "grad_norm": 0.20989347994327545,
      "learning_rate": 0.00011504441899559837,
      "loss": 0.4493,
      "num_input_tokens_seen": 20012960,
      "step": 30595
    },
    {
      "epoch": 16.037735849056602,
      "grad_norm": 0.19181504845619202,
      "learning_rate": 0.00011489852323897249,
      "loss": 0.4821,
      "num_input_tokens_seen": 20015616,
      "step": 30600
    },
    {
      "epoch": 16.04035639412998,
      "grad_norm": 0.11070078611373901,
      "learning_rate": 0.0001147527080411821,
      "loss": 0.4893,
      "num_input_tokens_seen": 20018048,
      "step": 30605
    },
    {
      "epoch": 16.042976939203353,
      "grad_norm": 0.1874576210975647,
      "learning_rate": 0.00011460697343273002,
      "loss": 0.4116,
      "num_input_tokens_seen": 20021152,
      "step": 30610
    },
    {
      "epoch": 16.04559748427673,
      "grad_norm": 0.14600427448749542,
      "learning_rate": 0.00011446131944410249,
      "loss": 0.3833,
      "num_input_tokens_seen": 20024032,
      "step": 30615
    },
    {
      "epoch": 16.048218029350103,
      "grad_norm": 0.15487666428089142,
      "learning_rate": 0.00011431574610576844,
      "loss": 0.4037,
      "num_input_tokens_seen": 20026944,
      "step": 30620
    },
    {
      "epoch": 16.05083857442348,
      "grad_norm": 0.21276362240314484,
      "learning_rate": 0.00011417025344818005,
      "loss": 0.4441,
      "num_input_tokens_seen": 20029536,
      "step": 30625
    },
    {
      "epoch": 16.053459119496857,
      "grad_norm": 0.1791345626115799,
      "learning_rate": 0.00011402484150177289,
      "loss": 0.4028,
      "num_input_tokens_seen": 20032768,
      "step": 30630
    },
    {
      "epoch": 16.05607966457023,
      "grad_norm": 0.13522298634052277,
      "learning_rate": 0.00011387951029696542,
      "loss": 0.4632,
      "num_input_tokens_seen": 20035712,
      "step": 30635
    },
    {
      "epoch": 16.058700209643607,
      "grad_norm": 0.18367139995098114,
      "learning_rate": 0.00011373425986415941,
      "loss": 0.4778,
      "num_input_tokens_seen": 20038336,
      "step": 30640
    },
    {
      "epoch": 16.06132075471698,
      "grad_norm": 0.11744619160890579,
      "learning_rate": 0.00011358909023373953,
      "loss": 0.4276,
      "num_input_tokens_seen": 20042688,
      "step": 30645
    },
    {
      "epoch": 16.063941299790358,
      "grad_norm": 0.12489152699708939,
      "learning_rate": 0.00011344400143607342,
      "loss": 0.4609,
      "num_input_tokens_seen": 20045568,
      "step": 30650
    },
    {
      "epoch": 16.06656184486373,
      "grad_norm": 0.18111473321914673,
      "learning_rate": 0.00011329899350151212,
      "loss": 0.4574,
      "num_input_tokens_seen": 20048928,
      "step": 30655
    },
    {
      "epoch": 16.069182389937108,
      "grad_norm": 0.10546170175075531,
      "learning_rate": 0.00011315406646038973,
      "loss": 0.4516,
      "num_input_tokens_seen": 20051840,
      "step": 30660
    },
    {
      "epoch": 16.07180293501048,
      "grad_norm": 0.10975535213947296,
      "learning_rate": 0.0001130092203430232,
      "loss": 0.4564,
      "num_input_tokens_seen": 20054592,
      "step": 30665
    },
    {
      "epoch": 16.07442348008386,
      "grad_norm": 0.1435934156179428,
      "learning_rate": 0.00011286445517971289,
      "loss": 0.6071,
      "num_input_tokens_seen": 20058624,
      "step": 30670
    },
    {
      "epoch": 16.07704402515723,
      "grad_norm": 0.12435788661241531,
      "learning_rate": 0.00011271977100074188,
      "loss": 0.3363,
      "num_input_tokens_seen": 20061632,
      "step": 30675
    },
    {
      "epoch": 16.07966457023061,
      "grad_norm": 0.10126115381717682,
      "learning_rate": 0.00011257516783637633,
      "loss": 0.3497,
      "num_input_tokens_seen": 20065472,
      "step": 30680
    },
    {
      "epoch": 16.082285115303982,
      "grad_norm": 0.11384878307580948,
      "learning_rate": 0.00011243064571686573,
      "loss": 0.4098,
      "num_input_tokens_seen": 20068128,
      "step": 30685
    },
    {
      "epoch": 16.08490566037736,
      "grad_norm": 0.09555430710315704,
      "learning_rate": 0.00011228620467244238,
      "loss": 0.4587,
      "num_input_tokens_seen": 20071872,
      "step": 30690
    },
    {
      "epoch": 16.087526205450732,
      "grad_norm": 0.15399684011936188,
      "learning_rate": 0.00011214184473332183,
      "loss": 0.5155,
      "num_input_tokens_seen": 20075232,
      "step": 30695
    },
    {
      "epoch": 16.09014675052411,
      "grad_norm": 0.09948378056287766,
      "learning_rate": 0.0001119975659297025,
      "loss": 0.3821,
      "num_input_tokens_seen": 20078272,
      "step": 30700
    },
    {
      "epoch": 16.092767295597483,
      "grad_norm": 0.20810917019844055,
      "learning_rate": 0.00011185336829176568,
      "loss": 0.5264,
      "num_input_tokens_seen": 20082304,
      "step": 30705
    },
    {
      "epoch": 16.09538784067086,
      "grad_norm": 0.12345781177282333,
      "learning_rate": 0.00011170925184967601,
      "loss": 0.414,
      "num_input_tokens_seen": 20086112,
      "step": 30710
    },
    {
      "epoch": 16.098008385744233,
      "grad_norm": 0.1525072604417801,
      "learning_rate": 0.00011156521663358094,
      "loss": 0.3566,
      "num_input_tokens_seen": 20090272,
      "step": 30715
    },
    {
      "epoch": 16.10062893081761,
      "grad_norm": 0.14898836612701416,
      "learning_rate": 0.00011142126267361124,
      "loss": 0.498,
      "num_input_tokens_seen": 20093280,
      "step": 30720
    },
    {
      "epoch": 16.103249475890987,
      "grad_norm": 0.15106210112571716,
      "learning_rate": 0.00011127738999988007,
      "loss": 0.3441,
      "num_input_tokens_seen": 20096128,
      "step": 30725
    },
    {
      "epoch": 16.10587002096436,
      "grad_norm": 0.18311448395252228,
      "learning_rate": 0.00011113359864248429,
      "loss": 0.4011,
      "num_input_tokens_seen": 20099136,
      "step": 30730
    },
    {
      "epoch": 16.108490566037737,
      "grad_norm": 0.08222139626741409,
      "learning_rate": 0.00011098988863150317,
      "loss": 0.4734,
      "num_input_tokens_seen": 20102240,
      "step": 30735
    },
    {
      "epoch": 16.11111111111111,
      "grad_norm": 0.2571577727794647,
      "learning_rate": 0.0001108462599969992,
      "loss": 0.5555,
      "num_input_tokens_seen": 20104960,
      "step": 30740
    },
    {
      "epoch": 16.113731656184488,
      "grad_norm": 0.1536167412996292,
      "learning_rate": 0.000110702712769018,
      "loss": 0.4182,
      "num_input_tokens_seen": 20108288,
      "step": 30745
    },
    {
      "epoch": 16.11635220125786,
      "grad_norm": 0.17270596325397491,
      "learning_rate": 0.00011055924697758801,
      "loss": 0.4265,
      "num_input_tokens_seen": 20111072,
      "step": 30750
    },
    {
      "epoch": 16.118972746331238,
      "grad_norm": 0.10831857472658157,
      "learning_rate": 0.00011041586265272052,
      "loss": 0.5468,
      "num_input_tokens_seen": 20114240,
      "step": 30755
    },
    {
      "epoch": 16.12159329140461,
      "grad_norm": 0.08081536740064621,
      "learning_rate": 0.00011027255982441003,
      "loss": 0.3802,
      "num_input_tokens_seen": 20117920,
      "step": 30760
    },
    {
      "epoch": 16.12421383647799,
      "grad_norm": 0.12046363204717636,
      "learning_rate": 0.00011012933852263369,
      "loss": 0.502,
      "num_input_tokens_seen": 20121056,
      "step": 30765
    },
    {
      "epoch": 16.12683438155136,
      "grad_norm": 0.14462333917617798,
      "learning_rate": 0.00010998619877735184,
      "loss": 0.4997,
      "num_input_tokens_seen": 20124160,
      "step": 30770
    },
    {
      "epoch": 16.12945492662474,
      "grad_norm": 0.12922123074531555,
      "learning_rate": 0.0001098431406185078,
      "loss": 0.4311,
      "num_input_tokens_seen": 20127264,
      "step": 30775
    },
    {
      "epoch": 16.132075471698112,
      "grad_norm": 0.12183830142021179,
      "learning_rate": 0.00010970016407602751,
      "loss": 0.4673,
      "num_input_tokens_seen": 20129760,
      "step": 30780
    },
    {
      "epoch": 16.13469601677149,
      "grad_norm": 0.13471455872058868,
      "learning_rate": 0.00010955726917982023,
      "loss": 0.403,
      "num_input_tokens_seen": 20133056,
      "step": 30785
    },
    {
      "epoch": 16.137316561844862,
      "grad_norm": 0.12145388871431351,
      "learning_rate": 0.00010941445595977767,
      "loss": 0.6688,
      "num_input_tokens_seen": 20139776,
      "step": 30790
    },
    {
      "epoch": 16.13993710691824,
      "grad_norm": 0.18463419377803802,
      "learning_rate": 0.00010927172444577494,
      "loss": 0.4084,
      "num_input_tokens_seen": 20143680,
      "step": 30795
    },
    {
      "epoch": 16.142557651991613,
      "grad_norm": 0.24723899364471436,
      "learning_rate": 0.00010912907466766985,
      "loss": 0.4309,
      "num_input_tokens_seen": 20147776,
      "step": 30800
    },
    {
      "epoch": 16.14517819706499,
      "grad_norm": 0.08683659881353378,
      "learning_rate": 0.00010898650665530302,
      "loss": 0.4192,
      "num_input_tokens_seen": 20151680,
      "step": 30805
    },
    {
      "epoch": 16.147798742138363,
      "grad_norm": 0.11892853677272797,
      "learning_rate": 0.000108844020438498,
      "loss": 0.3409,
      "num_input_tokens_seen": 20155712,
      "step": 30810
    },
    {
      "epoch": 16.15041928721174,
      "grad_norm": 0.18586577475070953,
      "learning_rate": 0.00010870161604706152,
      "loss": 0.3394,
      "num_input_tokens_seen": 20158592,
      "step": 30815
    },
    {
      "epoch": 16.153039832285117,
      "grad_norm": 0.08895910531282425,
      "learning_rate": 0.00010855929351078264,
      "loss": 0.394,
      "num_input_tokens_seen": 20162752,
      "step": 30820
    },
    {
      "epoch": 16.15566037735849,
      "grad_norm": 0.1253758668899536,
      "learning_rate": 0.00010841705285943382,
      "loss": 0.5569,
      "num_input_tokens_seen": 20165440,
      "step": 30825
    },
    {
      "epoch": 16.158280922431867,
      "grad_norm": 0.12530136108398438,
      "learning_rate": 0.0001082748941227702,
      "loss": 0.4978,
      "num_input_tokens_seen": 20167936,
      "step": 30830
    },
    {
      "epoch": 16.16090146750524,
      "grad_norm": 0.18569016456604004,
      "learning_rate": 0.00010813281733052959,
      "loss": 0.2538,
      "num_input_tokens_seen": 20170400,
      "step": 30835
    },
    {
      "epoch": 16.163522012578618,
      "grad_norm": 0.10155972838401794,
      "learning_rate": 0.00010799082251243292,
      "loss": 0.4196,
      "num_input_tokens_seen": 20173792,
      "step": 30840
    },
    {
      "epoch": 16.16614255765199,
      "grad_norm": 0.15544754266738892,
      "learning_rate": 0.00010784890969818407,
      "loss": 0.4141,
      "num_input_tokens_seen": 20177088,
      "step": 30845
    },
    {
      "epoch": 16.168763102725368,
      "grad_norm": 0.178679421544075,
      "learning_rate": 0.00010770707891746928,
      "loss": 0.3879,
      "num_input_tokens_seen": 20181088,
      "step": 30850
    },
    {
      "epoch": 16.17138364779874,
      "grad_norm": 0.15016643702983856,
      "learning_rate": 0.00010756533019995817,
      "loss": 0.3499,
      "num_input_tokens_seen": 20183808,
      "step": 30855
    },
    {
      "epoch": 16.17400419287212,
      "grad_norm": 0.12216325849294662,
      "learning_rate": 0.0001074236635753027,
      "loss": 0.419,
      "num_input_tokens_seen": 20186656,
      "step": 30860
    },
    {
      "epoch": 16.17662473794549,
      "grad_norm": 0.12161125242710114,
      "learning_rate": 0.00010728207907313809,
      "loss": 0.3492,
      "num_input_tokens_seen": 20190688,
      "step": 30865
    },
    {
      "epoch": 16.17924528301887,
      "grad_norm": 0.11182744055986404,
      "learning_rate": 0.0001071405767230822,
      "loss": 0.4623,
      "num_input_tokens_seen": 20194560,
      "step": 30870
    },
    {
      "epoch": 16.181865828092242,
      "grad_norm": 0.23843182623386383,
      "learning_rate": 0.0001069991565547358,
      "loss": 0.4996,
      "num_input_tokens_seen": 20197184,
      "step": 30875
    },
    {
      "epoch": 16.18448637316562,
      "grad_norm": 0.13824054598808289,
      "learning_rate": 0.00010685781859768223,
      "loss": 0.4231,
      "num_input_tokens_seen": 20200640,
      "step": 30880
    },
    {
      "epoch": 16.187106918238992,
      "grad_norm": 0.13714060187339783,
      "learning_rate": 0.00010671656288148768,
      "loss": 0.5844,
      "num_input_tokens_seen": 20203488,
      "step": 30885
    },
    {
      "epoch": 16.18972746331237,
      "grad_norm": 0.1147286519408226,
      "learning_rate": 0.00010657538943570138,
      "loss": 0.3582,
      "num_input_tokens_seen": 20208800,
      "step": 30890
    },
    {
      "epoch": 16.192348008385743,
      "grad_norm": 0.13602755963802338,
      "learning_rate": 0.00010643429828985518,
      "loss": 0.3271,
      "num_input_tokens_seen": 20213024,
      "step": 30895
    },
    {
      "epoch": 16.19496855345912,
      "grad_norm": 0.19365903735160828,
      "learning_rate": 0.0001062932894734639,
      "loss": 0.5185,
      "num_input_tokens_seen": 20215968,
      "step": 30900
    },
    {
      "epoch": 16.197589098532493,
      "grad_norm": 0.08915317803621292,
      "learning_rate": 0.00010615236301602476,
      "loss": 0.4059,
      "num_input_tokens_seen": 20219264,
      "step": 30905
    },
    {
      "epoch": 16.20020964360587,
      "grad_norm": 0.10567784309387207,
      "learning_rate": 0.00010601151894701794,
      "loss": 0.4489,
      "num_input_tokens_seen": 20222208,
      "step": 30910
    },
    {
      "epoch": 16.202830188679247,
      "grad_norm": 0.11926259845495224,
      "learning_rate": 0.0001058707572959065,
      "loss": 0.3921,
      "num_input_tokens_seen": 20225760,
      "step": 30915
    },
    {
      "epoch": 16.20545073375262,
      "grad_norm": 0.13292498886585236,
      "learning_rate": 0.00010573007809213614,
      "loss": 0.4761,
      "num_input_tokens_seen": 20229120,
      "step": 30920
    },
    {
      "epoch": 16.208071278825997,
      "grad_norm": 0.15736448764801025,
      "learning_rate": 0.00010558948136513536,
      "loss": 0.545,
      "num_input_tokens_seen": 20231744,
      "step": 30925
    },
    {
      "epoch": 16.21069182389937,
      "grad_norm": 0.1583493947982788,
      "learning_rate": 0.00010544896714431557,
      "loss": 0.5489,
      "num_input_tokens_seen": 20235808,
      "step": 30930
    },
    {
      "epoch": 16.213312368972748,
      "grad_norm": 0.2574000656604767,
      "learning_rate": 0.0001053085354590706,
      "loss": 0.5015,
      "num_input_tokens_seen": 20238784,
      "step": 30935
    },
    {
      "epoch": 16.21593291404612,
      "grad_norm": 0.12501311302185059,
      "learning_rate": 0.00010516818633877695,
      "loss": 0.4764,
      "num_input_tokens_seen": 20241952,
      "step": 30940
    },
    {
      "epoch": 16.218553459119498,
      "grad_norm": 0.2651820182800293,
      "learning_rate": 0.00010502791981279425,
      "loss": 0.5733,
      "num_input_tokens_seen": 20244608,
      "step": 30945
    },
    {
      "epoch": 16.22117400419287,
      "grad_norm": 0.12335535138845444,
      "learning_rate": 0.00010488773591046469,
      "loss": 0.3628,
      "num_input_tokens_seen": 20247424,
      "step": 30950
    },
    {
      "epoch": 16.22379454926625,
      "grad_norm": 0.1129227876663208,
      "learning_rate": 0.0001047476346611132,
      "loss": 0.3742,
      "num_input_tokens_seen": 20250240,
      "step": 30955
    },
    {
      "epoch": 16.22641509433962,
      "grad_norm": 0.11394230276346207,
      "learning_rate": 0.00010460761609404724,
      "loss": 0.3062,
      "num_input_tokens_seen": 20253440,
      "step": 30960
    },
    {
      "epoch": 16.229035639413,
      "grad_norm": 0.1352352797985077,
      "learning_rate": 0.00010446768023855701,
      "loss": 0.463,
      "num_input_tokens_seen": 20257440,
      "step": 30965
    },
    {
      "epoch": 16.231656184486372,
      "grad_norm": 0.39404404163360596,
      "learning_rate": 0.00010432782712391559,
      "loss": 0.6047,
      "num_input_tokens_seen": 20260320,
      "step": 30970
    },
    {
      "epoch": 16.23427672955975,
      "grad_norm": 0.1739596128463745,
      "learning_rate": 0.00010418805677937871,
      "loss": 0.6734,
      "num_input_tokens_seen": 20263424,
      "step": 30975
    },
    {
      "epoch": 16.236897274633122,
      "grad_norm": 0.09878790378570557,
      "learning_rate": 0.00010404836923418465,
      "loss": 0.3333,
      "num_input_tokens_seen": 20266752,
      "step": 30980
    },
    {
      "epoch": 16.2395178197065,
      "grad_norm": 0.09329227358102798,
      "learning_rate": 0.00010390876451755477,
      "loss": 0.431,
      "num_input_tokens_seen": 20269792,
      "step": 30985
    },
    {
      "epoch": 16.242138364779873,
      "grad_norm": 0.24866776168346405,
      "learning_rate": 0.0001037692426586922,
      "loss": 0.4589,
      "num_input_tokens_seen": 20272608,
      "step": 30990
    },
    {
      "epoch": 16.24475890985325,
      "grad_norm": 0.16891983151435852,
      "learning_rate": 0.0001036298036867837,
      "loss": 0.3129,
      "num_input_tokens_seen": 20278688,
      "step": 30995
    },
    {
      "epoch": 16.247379454926623,
      "grad_norm": 0.23090077936649323,
      "learning_rate": 0.00010349044763099819,
      "loss": 0.2927,
      "num_input_tokens_seen": 20280736,
      "step": 31000
    },
    {
      "epoch": 16.25,
      "grad_norm": 0.09645089507102966,
      "learning_rate": 0.00010335117452048742,
      "loss": 0.5067,
      "num_input_tokens_seen": 20284800,
      "step": 31005
    },
    {
      "epoch": 16.252620545073377,
      "grad_norm": 0.16836979985237122,
      "learning_rate": 0.00010321198438438589,
      "loss": 0.6049,
      "num_input_tokens_seen": 20288608,
      "step": 31010
    },
    {
      "epoch": 16.25524109014675,
      "grad_norm": 0.16183143854141235,
      "learning_rate": 0.00010307287725181036,
      "loss": 0.4805,
      "num_input_tokens_seen": 20291712,
      "step": 31015
    },
    {
      "epoch": 16.257861635220127,
      "grad_norm": 0.20326298475265503,
      "learning_rate": 0.00010293385315186049,
      "loss": 0.4351,
      "num_input_tokens_seen": 20294880,
      "step": 31020
    },
    {
      "epoch": 16.2604821802935,
      "grad_norm": 0.1636824607849121,
      "learning_rate": 0.00010279491211361853,
      "loss": 0.3513,
      "num_input_tokens_seen": 20297824,
      "step": 31025
    },
    {
      "epoch": 16.263102725366878,
      "grad_norm": 0.16482657194137573,
      "learning_rate": 0.00010265605416614938,
      "loss": 0.428,
      "num_input_tokens_seen": 20300672,
      "step": 31030
    },
    {
      "epoch": 16.26572327044025,
      "grad_norm": 0.09503015130758286,
      "learning_rate": 0.00010251727933850069,
      "loss": 0.383,
      "num_input_tokens_seen": 20303232,
      "step": 31035
    },
    {
      "epoch": 16.268343815513628,
      "grad_norm": 0.12994998693466187,
      "learning_rate": 0.00010237858765970231,
      "loss": 0.4607,
      "num_input_tokens_seen": 20307232,
      "step": 31040
    },
    {
      "epoch": 16.270964360587,
      "grad_norm": 0.10627855360507965,
      "learning_rate": 0.00010223997915876726,
      "loss": 0.4482,
      "num_input_tokens_seen": 20310912,
      "step": 31045
    },
    {
      "epoch": 16.27358490566038,
      "grad_norm": 0.12127538025379181,
      "learning_rate": 0.00010210145386469049,
      "loss": 0.4868,
      "num_input_tokens_seen": 20313760,
      "step": 31050
    },
    {
      "epoch": 16.27620545073375,
      "grad_norm": 0.2538022994995117,
      "learning_rate": 0.00010196301180645012,
      "loss": 0.4056,
      "num_input_tokens_seen": 20316960,
      "step": 31055
    },
    {
      "epoch": 16.27882599580713,
      "grad_norm": 0.2608999013900757,
      "learning_rate": 0.0001018246530130067,
      "loss": 0.3965,
      "num_input_tokens_seen": 20319552,
      "step": 31060
    },
    {
      "epoch": 16.281446540880502,
      "grad_norm": 0.1685815155506134,
      "learning_rate": 0.00010168637751330328,
      "loss": 0.4736,
      "num_input_tokens_seen": 20322656,
      "step": 31065
    },
    {
      "epoch": 16.28406708595388,
      "grad_norm": 0.18401192128658295,
      "learning_rate": 0.00010154818533626552,
      "loss": 0.4691,
      "num_input_tokens_seen": 20325376,
      "step": 31070
    },
    {
      "epoch": 16.286687631027252,
      "grad_norm": 0.10867776721715927,
      "learning_rate": 0.00010141007651080153,
      "loss": 0.4173,
      "num_input_tokens_seen": 20328960,
      "step": 31075
    },
    {
      "epoch": 16.28930817610063,
      "grad_norm": 0.12997521460056305,
      "learning_rate": 0.00010127205106580212,
      "loss": 0.3388,
      "num_input_tokens_seen": 20332608,
      "step": 31080
    },
    {
      "epoch": 16.291928721174003,
      "grad_norm": 0.1830083727836609,
      "learning_rate": 0.0001011341090301407,
      "loss": 0.3933,
      "num_input_tokens_seen": 20335744,
      "step": 31085
    },
    {
      "epoch": 16.29454926624738,
      "grad_norm": 0.15887126326560974,
      "learning_rate": 0.00010099625043267336,
      "loss": 0.4522,
      "num_input_tokens_seen": 20339520,
      "step": 31090
    },
    {
      "epoch": 16.297169811320753,
      "grad_norm": 0.24222561717033386,
      "learning_rate": 0.00010085847530223812,
      "loss": 0.5523,
      "num_input_tokens_seen": 20341952,
      "step": 31095
    },
    {
      "epoch": 16.29979035639413,
      "grad_norm": 0.0781165361404419,
      "learning_rate": 0.00010072078366765641,
      "loss": 0.349,
      "num_input_tokens_seen": 20346112,
      "step": 31100
    },
    {
      "epoch": 16.302410901467507,
      "grad_norm": 0.13650190830230713,
      "learning_rate": 0.00010058317555773139,
      "loss": 0.464,
      "num_input_tokens_seen": 20348224,
      "step": 31105
    },
    {
      "epoch": 16.30503144654088,
      "grad_norm": 0.17388767004013062,
      "learning_rate": 0.00010044565100124925,
      "loss": 0.4551,
      "num_input_tokens_seen": 20351040,
      "step": 31110
    },
    {
      "epoch": 16.307651991614257,
      "grad_norm": 0.07403282076120377,
      "learning_rate": 0.00010030821002697871,
      "loss": 0.2844,
      "num_input_tokens_seen": 20356032,
      "step": 31115
    },
    {
      "epoch": 16.31027253668763,
      "grad_norm": 0.15275456011295319,
      "learning_rate": 0.00010017085266367054,
      "loss": 0.3719,
      "num_input_tokens_seen": 20359936,
      "step": 31120
    },
    {
      "epoch": 16.312893081761008,
      "grad_norm": 0.15901389718055725,
      "learning_rate": 0.00010003357894005854,
      "loss": 0.3295,
      "num_input_tokens_seen": 20362880,
      "step": 31125
    },
    {
      "epoch": 16.31551362683438,
      "grad_norm": 0.2581527829170227,
      "learning_rate": 9.989638888485885e-05,
      "loss": 0.4006,
      "num_input_tokens_seen": 20366784,
      "step": 31130
    },
    {
      "epoch": 16.318134171907758,
      "grad_norm": 0.11097180098295212,
      "learning_rate": 9.975928252676991e-05,
      "loss": 0.5211,
      "num_input_tokens_seen": 20370496,
      "step": 31135
    },
    {
      "epoch": 16.32075471698113,
      "grad_norm": 0.12381984293460846,
      "learning_rate": 9.962225989447288e-05,
      "loss": 0.4089,
      "num_input_tokens_seen": 20374016,
      "step": 31140
    },
    {
      "epoch": 16.32337526205451,
      "grad_norm": 0.0963132381439209,
      "learning_rate": 9.948532101663144e-05,
      "loss": 0.6629,
      "num_input_tokens_seen": 20377280,
      "step": 31145
    },
    {
      "epoch": 16.32599580712788,
      "grad_norm": 0.30911725759506226,
      "learning_rate": 9.934846592189134e-05,
      "loss": 0.4397,
      "num_input_tokens_seen": 20379872,
      "step": 31150
    },
    {
      "epoch": 16.32861635220126,
      "grad_norm": 0.19542045891284943,
      "learning_rate": 9.921169463888153e-05,
      "loss": 0.5002,
      "num_input_tokens_seen": 20382080,
      "step": 31155
    },
    {
      "epoch": 16.331236897274632,
      "grad_norm": 0.11153034120798111,
      "learning_rate": 9.907500719621253e-05,
      "loss": 0.435,
      "num_input_tokens_seen": 20384992,
      "step": 31160
    },
    {
      "epoch": 16.33385744234801,
      "grad_norm": 0.11664554476737976,
      "learning_rate": 9.893840362247809e-05,
      "loss": 0.3656,
      "num_input_tokens_seen": 20389280,
      "step": 31165
    },
    {
      "epoch": 16.336477987421382,
      "grad_norm": 0.1465122252702713,
      "learning_rate": 9.880188394625417e-05,
      "loss": 0.4679,
      "num_input_tokens_seen": 20391808,
      "step": 31170
    },
    {
      "epoch": 16.33909853249476,
      "grad_norm": 0.15809085965156555,
      "learning_rate": 9.86654481960989e-05,
      "loss": 0.3844,
      "num_input_tokens_seen": 20394304,
      "step": 31175
    },
    {
      "epoch": 16.341719077568133,
      "grad_norm": 0.10261234641075134,
      "learning_rate": 9.852909640055325e-05,
      "loss": 0.3379,
      "num_input_tokens_seen": 20398528,
      "step": 31180
    },
    {
      "epoch": 16.34433962264151,
      "grad_norm": 0.18467357754707336,
      "learning_rate": 9.839282858814047e-05,
      "loss": 0.5243,
      "num_input_tokens_seen": 20400864,
      "step": 31185
    },
    {
      "epoch": 16.346960167714883,
      "grad_norm": 0.07711484283208847,
      "learning_rate": 9.825664478736607e-05,
      "loss": 0.3346,
      "num_input_tokens_seen": 20403904,
      "step": 31190
    },
    {
      "epoch": 16.34958071278826,
      "grad_norm": 0.13900353014469147,
      "learning_rate": 9.812054502671835e-05,
      "loss": 0.384,
      "num_input_tokens_seen": 20407360,
      "step": 31195
    },
    {
      "epoch": 16.352201257861637,
      "grad_norm": 0.16271790862083435,
      "learning_rate": 9.798452933466761e-05,
      "loss": 0.3747,
      "num_input_tokens_seen": 20409728,
      "step": 31200
    },
    {
      "epoch": 16.35482180293501,
      "grad_norm": 0.15470249950885773,
      "learning_rate": 9.784859773966693e-05,
      "loss": 0.3687,
      "num_input_tokens_seen": 20412800,
      "step": 31205
    },
    {
      "epoch": 16.357442348008387,
      "grad_norm": 0.12057424336671829,
      "learning_rate": 9.771275027015159e-05,
      "loss": 0.3505,
      "num_input_tokens_seen": 20415680,
      "step": 31210
    },
    {
      "epoch": 16.36006289308176,
      "grad_norm": 0.10671046376228333,
      "learning_rate": 9.757698695453954e-05,
      "loss": 0.4217,
      "num_input_tokens_seen": 20419744,
      "step": 31215
    },
    {
      "epoch": 16.362683438155138,
      "grad_norm": 0.15449154376983643,
      "learning_rate": 9.74413078212305e-05,
      "loss": 0.6691,
      "num_input_tokens_seen": 20422304,
      "step": 31220
    },
    {
      "epoch": 16.36530398322851,
      "grad_norm": 0.36829352378845215,
      "learning_rate": 9.730571289860746e-05,
      "loss": 0.3572,
      "num_input_tokens_seen": 20424832,
      "step": 31225
    },
    {
      "epoch": 16.367924528301888,
      "grad_norm": 0.14632079005241394,
      "learning_rate": 9.717020221503493e-05,
      "loss": 0.3909,
      "num_input_tokens_seen": 20428256,
      "step": 31230
    },
    {
      "epoch": 16.37054507337526,
      "grad_norm": 0.2721387445926666,
      "learning_rate": 9.703477579886038e-05,
      "loss": 0.37,
      "num_input_tokens_seen": 20430784,
      "step": 31235
    },
    {
      "epoch": 16.37316561844864,
      "grad_norm": 0.128534197807312,
      "learning_rate": 9.689943367841347e-05,
      "loss": 0.4791,
      "num_input_tokens_seen": 20433760,
      "step": 31240
    },
    {
      "epoch": 16.37578616352201,
      "grad_norm": 0.14514034986495972,
      "learning_rate": 9.676417588200632e-05,
      "loss": 0.357,
      "num_input_tokens_seen": 20436416,
      "step": 31245
    },
    {
      "epoch": 16.37840670859539,
      "grad_norm": 0.23759208619594574,
      "learning_rate": 9.662900243793321e-05,
      "loss": 0.3546,
      "num_input_tokens_seen": 20439328,
      "step": 31250
    },
    {
      "epoch": 16.381027253668762,
      "grad_norm": 0.1364428848028183,
      "learning_rate": 9.649391337447084e-05,
      "loss": 0.5514,
      "num_input_tokens_seen": 20442016,
      "step": 31255
    },
    {
      "epoch": 16.38364779874214,
      "grad_norm": 0.1338774859905243,
      "learning_rate": 9.635890871987829e-05,
      "loss": 0.4306,
      "num_input_tokens_seen": 20444800,
      "step": 31260
    },
    {
      "epoch": 16.386268343815512,
      "grad_norm": 0.26816391944885254,
      "learning_rate": 9.622398850239705e-05,
      "loss": 0.2961,
      "num_input_tokens_seen": 20447456,
      "step": 31265
    },
    {
      "epoch": 16.38888888888889,
      "grad_norm": 0.08239203691482544,
      "learning_rate": 9.608915275025104e-05,
      "loss": 0.3915,
      "num_input_tokens_seen": 20451904,
      "step": 31270
    },
    {
      "epoch": 16.391509433962263,
      "grad_norm": 0.17948685586452484,
      "learning_rate": 9.595440149164619e-05,
      "loss": 0.5008,
      "num_input_tokens_seen": 20455520,
      "step": 31275
    },
    {
      "epoch": 16.39412997903564,
      "grad_norm": 0.14392462372779846,
      "learning_rate": 9.581973475477085e-05,
      "loss": 0.3338,
      "num_input_tokens_seen": 20459232,
      "step": 31280
    },
    {
      "epoch": 16.396750524109013,
      "grad_norm": 0.19654938578605652,
      "learning_rate": 9.568515256779587e-05,
      "loss": 0.568,
      "num_input_tokens_seen": 20462400,
      "step": 31285
    },
    {
      "epoch": 16.39937106918239,
      "grad_norm": 0.13217929005622864,
      "learning_rate": 9.555065495887433e-05,
      "loss": 0.5674,
      "num_input_tokens_seen": 20465120,
      "step": 31290
    },
    {
      "epoch": 16.401991614255767,
      "grad_norm": 0.2302820086479187,
      "learning_rate": 9.541624195614152e-05,
      "loss": 0.4926,
      "num_input_tokens_seen": 20467616,
      "step": 31295
    },
    {
      "epoch": 16.40461215932914,
      "grad_norm": 0.13659119606018066,
      "learning_rate": 9.528191358771532e-05,
      "loss": 0.4983,
      "num_input_tokens_seen": 20472192,
      "step": 31300
    },
    {
      "epoch": 16.407232704402517,
      "grad_norm": 0.1253521740436554,
      "learning_rate": 9.514766988169549e-05,
      "loss": 0.3636,
      "num_input_tokens_seen": 20475776,
      "step": 31305
    },
    {
      "epoch": 16.40985324947589,
      "grad_norm": 0.0777873545885086,
      "learning_rate": 9.501351086616422e-05,
      "loss": 0.4727,
      "num_input_tokens_seen": 20479456,
      "step": 31310
    },
    {
      "epoch": 16.412473794549268,
      "grad_norm": 0.18705271184444427,
      "learning_rate": 9.487943656918613e-05,
      "loss": 0.4776,
      "num_input_tokens_seen": 20481952,
      "step": 31315
    },
    {
      "epoch": 16.41509433962264,
      "grad_norm": 0.10655863583087921,
      "learning_rate": 9.474544701880805e-05,
      "loss": 0.4366,
      "num_input_tokens_seen": 20486016,
      "step": 31320
    },
    {
      "epoch": 16.417714884696018,
      "grad_norm": 0.10454535484313965,
      "learning_rate": 9.461154224305923e-05,
      "loss": 0.3172,
      "num_input_tokens_seen": 20493312,
      "step": 31325
    },
    {
      "epoch": 16.42033542976939,
      "grad_norm": 0.12394002079963684,
      "learning_rate": 9.447772226995082e-05,
      "loss": 0.4402,
      "num_input_tokens_seen": 20496224,
      "step": 31330
    },
    {
      "epoch": 16.42295597484277,
      "grad_norm": 0.12237133830785751,
      "learning_rate": 9.434398712747639e-05,
      "loss": 0.5013,
      "num_input_tokens_seen": 20499776,
      "step": 31335
    },
    {
      "epoch": 16.42557651991614,
      "grad_norm": 0.1721363663673401,
      "learning_rate": 9.421033684361185e-05,
      "loss": 0.3716,
      "num_input_tokens_seen": 20502816,
      "step": 31340
    },
    {
      "epoch": 16.42819706498952,
      "grad_norm": 0.13025783002376556,
      "learning_rate": 9.407677144631533e-05,
      "loss": 0.4386,
      "num_input_tokens_seen": 20506240,
      "step": 31345
    },
    {
      "epoch": 16.430817610062892,
      "grad_norm": 0.15457575023174286,
      "learning_rate": 9.394329096352732e-05,
      "loss": 0.498,
      "num_input_tokens_seen": 20509408,
      "step": 31350
    },
    {
      "epoch": 16.43343815513627,
      "grad_norm": 0.2064189910888672,
      "learning_rate": 9.380989542317037e-05,
      "loss": 0.3589,
      "num_input_tokens_seen": 20511680,
      "step": 31355
    },
    {
      "epoch": 16.436058700209642,
      "grad_norm": 0.1552230566740036,
      "learning_rate": 9.367658485314907e-05,
      "loss": 0.3804,
      "num_input_tokens_seen": 20515072,
      "step": 31360
    },
    {
      "epoch": 16.43867924528302,
      "grad_norm": 0.14607490599155426,
      "learning_rate": 9.354335928135066e-05,
      "loss": 0.4192,
      "num_input_tokens_seen": 20517856,
      "step": 31365
    },
    {
      "epoch": 16.441299790356393,
      "grad_norm": 0.10070430487394333,
      "learning_rate": 9.341021873564432e-05,
      "loss": 0.3682,
      "num_input_tokens_seen": 20521344,
      "step": 31370
    },
    {
      "epoch": 16.44392033542977,
      "grad_norm": 0.11247967183589935,
      "learning_rate": 9.327716324388164e-05,
      "loss": 0.8126,
      "num_input_tokens_seen": 20524896,
      "step": 31375
    },
    {
      "epoch": 16.446540880503143,
      "grad_norm": 0.09295333921909332,
      "learning_rate": 9.314419283389641e-05,
      "loss": 0.4207,
      "num_input_tokens_seen": 20528576,
      "step": 31380
    },
    {
      "epoch": 16.44916142557652,
      "grad_norm": 0.18027129769325256,
      "learning_rate": 9.30113075335044e-05,
      "loss": 0.3792,
      "num_input_tokens_seen": 20531712,
      "step": 31385
    },
    {
      "epoch": 16.451781970649897,
      "grad_norm": 0.15084205567836761,
      "learning_rate": 9.287850737050352e-05,
      "loss": 0.5195,
      "num_input_tokens_seen": 20534432,
      "step": 31390
    },
    {
      "epoch": 16.45440251572327,
      "grad_norm": 0.10353489220142365,
      "learning_rate": 9.274579237267422e-05,
      "loss": 0.4919,
      "num_input_tokens_seen": 20538752,
      "step": 31395
    },
    {
      "epoch": 16.457023060796647,
      "grad_norm": 0.1372160017490387,
      "learning_rate": 9.261316256777897e-05,
      "loss": 0.4133,
      "num_input_tokens_seen": 20541376,
      "step": 31400
    },
    {
      "epoch": 16.45964360587002,
      "grad_norm": 0.0845029205083847,
      "learning_rate": 9.24806179835625e-05,
      "loss": 0.5306,
      "num_input_tokens_seen": 20544256,
      "step": 31405
    },
    {
      "epoch": 16.462264150943398,
      "grad_norm": 0.16429470479488373,
      "learning_rate": 9.234815864775137e-05,
      "loss": 0.4183,
      "num_input_tokens_seen": 20548576,
      "step": 31410
    },
    {
      "epoch": 16.46488469601677,
      "grad_norm": 0.1885044425725937,
      "learning_rate": 9.221578458805485e-05,
      "loss": 0.4689,
      "num_input_tokens_seen": 20551968,
      "step": 31415
    },
    {
      "epoch": 16.467505241090148,
      "grad_norm": 0.18414641916751862,
      "learning_rate": 9.208349583216385e-05,
      "loss": 0.4062,
      "num_input_tokens_seen": 20555008,
      "step": 31420
    },
    {
      "epoch": 16.47012578616352,
      "grad_norm": 0.11098553985357285,
      "learning_rate": 9.195129240775174e-05,
      "loss": 0.3598,
      "num_input_tokens_seen": 20558144,
      "step": 31425
    },
    {
      "epoch": 16.4727463312369,
      "grad_norm": 0.16273745894432068,
      "learning_rate": 9.181917434247417e-05,
      "loss": 0.821,
      "num_input_tokens_seen": 20560704,
      "step": 31430
    },
    {
      "epoch": 16.47536687631027,
      "grad_norm": 0.11553920805454254,
      "learning_rate": 9.168714166396835e-05,
      "loss": 0.5255,
      "num_input_tokens_seen": 20564608,
      "step": 31435
    },
    {
      "epoch": 16.47798742138365,
      "grad_norm": 0.13090693950653076,
      "learning_rate": 9.155519439985438e-05,
      "loss": 0.4639,
      "num_input_tokens_seen": 20568096,
      "step": 31440
    },
    {
      "epoch": 16.480607966457022,
      "grad_norm": 0.11538578569889069,
      "learning_rate": 9.142333257773383e-05,
      "loss": 0.3974,
      "num_input_tokens_seen": 20571744,
      "step": 31445
    },
    {
      "epoch": 16.4832285115304,
      "grad_norm": 0.16091632843017578,
      "learning_rate": 9.12915562251908e-05,
      "loss": 0.4053,
      "num_input_tokens_seen": 20574368,
      "step": 31450
    },
    {
      "epoch": 16.485849056603772,
      "grad_norm": 0.14903883635997772,
      "learning_rate": 9.115986536979149e-05,
      "loss": 0.4022,
      "num_input_tokens_seen": 20578080,
      "step": 31455
    },
    {
      "epoch": 16.48846960167715,
      "grad_norm": 0.12750372290611267,
      "learning_rate": 9.10282600390841e-05,
      "loss": 0.4695,
      "num_input_tokens_seen": 20581248,
      "step": 31460
    },
    {
      "epoch": 16.491090146750523,
      "grad_norm": 0.14432039856910706,
      "learning_rate": 9.08967402605988e-05,
      "loss": 0.4106,
      "num_input_tokens_seen": 20585664,
      "step": 31465
    },
    {
      "epoch": 16.4937106918239,
      "grad_norm": 0.1061171442270279,
      "learning_rate": 9.07653060618483e-05,
      "loss": 0.3865,
      "num_input_tokens_seen": 20589024,
      "step": 31470
    },
    {
      "epoch": 16.496331236897273,
      "grad_norm": 0.11034314334392548,
      "learning_rate": 9.063395747032676e-05,
      "loss": 0.3277,
      "num_input_tokens_seen": 20592320,
      "step": 31475
    },
    {
      "epoch": 16.49895178197065,
      "grad_norm": 0.15354393422603607,
      "learning_rate": 9.050269451351112e-05,
      "loss": 0.3881,
      "num_input_tokens_seen": 20594848,
      "step": 31480
    },
    {
      "epoch": 16.501572327044027,
      "grad_norm": 0.10896871238946915,
      "learning_rate": 9.037151721886006e-05,
      "loss": 0.3983,
      "num_input_tokens_seen": 20597504,
      "step": 31485
    },
    {
      "epoch": 16.5041928721174,
      "grad_norm": 0.1516875922679901,
      "learning_rate": 9.024042561381424e-05,
      "loss": 0.4997,
      "num_input_tokens_seen": 20601152,
      "step": 31490
    },
    {
      "epoch": 16.506813417190777,
      "grad_norm": 0.19885285198688507,
      "learning_rate": 9.010941972579656e-05,
      "loss": 0.4108,
      "num_input_tokens_seen": 20603936,
      "step": 31495
    },
    {
      "epoch": 16.50943396226415,
      "grad_norm": 0.09756089746952057,
      "learning_rate": 8.99784995822121e-05,
      "loss": 0.5063,
      "num_input_tokens_seen": 20607872,
      "step": 31500
    },
    {
      "epoch": 16.512054507337528,
      "grad_norm": 0.12426754832267761,
      "learning_rate": 8.984766521044769e-05,
      "loss": 0.6373,
      "num_input_tokens_seen": 20612288,
      "step": 31505
    },
    {
      "epoch": 16.5146750524109,
      "grad_norm": 0.1219848021864891,
      "learning_rate": 8.971691663787252e-05,
      "loss": 0.3651,
      "num_input_tokens_seen": 20615072,
      "step": 31510
    },
    {
      "epoch": 16.517295597484278,
      "grad_norm": 0.13918329775333405,
      "learning_rate": 8.958625389183756e-05,
      "loss": 0.4444,
      "num_input_tokens_seen": 20620736,
      "step": 31515
    },
    {
      "epoch": 16.51991614255765,
      "grad_norm": 0.11824701726436615,
      "learning_rate": 8.9455676999676e-05,
      "loss": 0.4245,
      "num_input_tokens_seen": 20624640,
      "step": 31520
    },
    {
      "epoch": 16.52253668763103,
      "grad_norm": 0.1391785591840744,
      "learning_rate": 8.932518598870309e-05,
      "loss": 0.5164,
      "num_input_tokens_seen": 20627968,
      "step": 31525
    },
    {
      "epoch": 16.5251572327044,
      "grad_norm": 0.15885034203529358,
      "learning_rate": 8.919478088621614e-05,
      "loss": 0.4544,
      "num_input_tokens_seen": 20631360,
      "step": 31530
    },
    {
      "epoch": 16.52777777777778,
      "grad_norm": 0.18457069993019104,
      "learning_rate": 8.906446171949422e-05,
      "loss": 0.5329,
      "num_input_tokens_seen": 20633760,
      "step": 31535
    },
    {
      "epoch": 16.530398322851152,
      "grad_norm": 0.14147207140922546,
      "learning_rate": 8.893422851579885e-05,
      "loss": 0.4472,
      "num_input_tokens_seen": 20636640,
      "step": 31540
    },
    {
      "epoch": 16.53301886792453,
      "grad_norm": 0.2419600635766983,
      "learning_rate": 8.8804081302373e-05,
      "loss": 0.3802,
      "num_input_tokens_seen": 20639648,
      "step": 31545
    },
    {
      "epoch": 16.535639412997902,
      "grad_norm": 0.17305992543697357,
      "learning_rate": 8.867402010644221e-05,
      "loss": 0.4401,
      "num_input_tokens_seen": 20642464,
      "step": 31550
    },
    {
      "epoch": 16.53825995807128,
      "grad_norm": 0.16082797944545746,
      "learning_rate": 8.854404495521389e-05,
      "loss": 0.4547,
      "num_input_tokens_seen": 20645760,
      "step": 31555
    },
    {
      "epoch": 16.540880503144653,
      "grad_norm": 0.15403124690055847,
      "learning_rate": 8.841415587587709e-05,
      "loss": 0.3944,
      "num_input_tokens_seen": 20648960,
      "step": 31560
    },
    {
      "epoch": 16.54350104821803,
      "grad_norm": 0.7349806427955627,
      "learning_rate": 8.828435289560344e-05,
      "loss": 0.4753,
      "num_input_tokens_seen": 20652000,
      "step": 31565
    },
    {
      "epoch": 16.546121593291403,
      "grad_norm": 0.2340308129787445,
      "learning_rate": 8.815463604154588e-05,
      "loss": 0.4401,
      "num_input_tokens_seen": 20654592,
      "step": 31570
    },
    {
      "epoch": 16.54874213836478,
      "grad_norm": 0.1506156474351883,
      "learning_rate": 8.80250053408399e-05,
      "loss": 0.4789,
      "num_input_tokens_seen": 20657472,
      "step": 31575
    },
    {
      "epoch": 16.551362683438157,
      "grad_norm": 0.10138044506311417,
      "learning_rate": 8.789546082060273e-05,
      "loss": 0.46,
      "num_input_tokens_seen": 20660192,
      "step": 31580
    },
    {
      "epoch": 16.55398322851153,
      "grad_norm": 0.15491268038749695,
      "learning_rate": 8.776600250793371e-05,
      "loss": 0.3695,
      "num_input_tokens_seen": 20663488,
      "step": 31585
    },
    {
      "epoch": 16.556603773584907,
      "grad_norm": 0.1275264024734497,
      "learning_rate": 8.763663042991399e-05,
      "loss": 0.4842,
      "num_input_tokens_seen": 20666080,
      "step": 31590
    },
    {
      "epoch": 16.55922431865828,
      "grad_norm": 0.11916297674179077,
      "learning_rate": 8.75073446136066e-05,
      "loss": 0.38,
      "num_input_tokens_seen": 20669056,
      "step": 31595
    },
    {
      "epoch": 16.561844863731658,
      "grad_norm": 0.2570682466030121,
      "learning_rate": 8.737814508605674e-05,
      "loss": 0.4076,
      "num_input_tokens_seen": 20672320,
      "step": 31600
    },
    {
      "epoch": 16.56446540880503,
      "grad_norm": 0.19792887568473816,
      "learning_rate": 8.724903187429145e-05,
      "loss": 0.5706,
      "num_input_tokens_seen": 20675424,
      "step": 31605
    },
    {
      "epoch": 16.567085953878408,
      "grad_norm": 0.13262973725795746,
      "learning_rate": 8.71200050053198e-05,
      "loss": 0.3607,
      "num_input_tokens_seen": 20678624,
      "step": 31610
    },
    {
      "epoch": 16.56970649895178,
      "grad_norm": 0.16619573533535004,
      "learning_rate": 8.699106450613287e-05,
      "loss": 0.526,
      "num_input_tokens_seen": 20682176,
      "step": 31615
    },
    {
      "epoch": 16.572327044025158,
      "grad_norm": 0.08623982220888138,
      "learning_rate": 8.686221040370334e-05,
      "loss": 0.4444,
      "num_input_tokens_seen": 20686688,
      "step": 31620
    },
    {
      "epoch": 16.57494758909853,
      "grad_norm": 0.09473846107721329,
      "learning_rate": 8.673344272498596e-05,
      "loss": 0.373,
      "num_input_tokens_seen": 20689376,
      "step": 31625
    },
    {
      "epoch": 16.57756813417191,
      "grad_norm": 0.10935337096452713,
      "learning_rate": 8.660476149691759e-05,
      "loss": 0.42,
      "num_input_tokens_seen": 20692960,
      "step": 31630
    },
    {
      "epoch": 16.580188679245282,
      "grad_norm": 0.16679729521274567,
      "learning_rate": 8.647616674641684e-05,
      "loss": 0.452,
      "num_input_tokens_seen": 20695520,
      "step": 31635
    },
    {
      "epoch": 16.58280922431866,
      "grad_norm": 0.21110117435455322,
      "learning_rate": 8.63476585003844e-05,
      "loss": 0.3967,
      "num_input_tokens_seen": 20699136,
      "step": 31640
    },
    {
      "epoch": 16.585429769392032,
      "grad_norm": 0.11599381268024445,
      "learning_rate": 8.621923678570259e-05,
      "loss": 0.344,
      "num_input_tokens_seen": 20703104,
      "step": 31645
    },
    {
      "epoch": 16.58805031446541,
      "grad_norm": 0.1218525692820549,
      "learning_rate": 8.609090162923567e-05,
      "loss": 0.4376,
      "num_input_tokens_seen": 20705984,
      "step": 31650
    },
    {
      "epoch": 16.590670859538783,
      "grad_norm": 0.08129487931728363,
      "learning_rate": 8.596265305783002e-05,
      "loss": 0.3981,
      "num_input_tokens_seen": 20712416,
      "step": 31655
    },
    {
      "epoch": 16.59329140461216,
      "grad_norm": 0.1773451268672943,
      "learning_rate": 8.583449109831375e-05,
      "loss": 0.4376,
      "num_input_tokens_seen": 20715456,
      "step": 31660
    },
    {
      "epoch": 16.595911949685533,
      "grad_norm": 0.15576019883155823,
      "learning_rate": 8.570641577749705e-05,
      "loss": 0.3688,
      "num_input_tokens_seen": 20718144,
      "step": 31665
    },
    {
      "epoch": 16.59853249475891,
      "grad_norm": 0.1266319751739502,
      "learning_rate": 8.557842712217162e-05,
      "loss": 0.4087,
      "num_input_tokens_seen": 20720640,
      "step": 31670
    },
    {
      "epoch": 16.601153039832283,
      "grad_norm": 0.11234647780656815,
      "learning_rate": 8.545052515911112e-05,
      "loss": 0.4332,
      "num_input_tokens_seen": 20723424,
      "step": 31675
    },
    {
      "epoch": 16.60377358490566,
      "grad_norm": 0.14705713093280792,
      "learning_rate": 8.532270991507136e-05,
      "loss": 0.449,
      "num_input_tokens_seen": 20726528,
      "step": 31680
    },
    {
      "epoch": 16.606394129979037,
      "grad_norm": 0.22621503472328186,
      "learning_rate": 8.519498141678983e-05,
      "loss": 0.4025,
      "num_input_tokens_seen": 20729216,
      "step": 31685
    },
    {
      "epoch": 16.60901467505241,
      "grad_norm": 0.14271579682826996,
      "learning_rate": 8.506733969098579e-05,
      "loss": 0.5093,
      "num_input_tokens_seen": 20733344,
      "step": 31690
    },
    {
      "epoch": 16.611635220125788,
      "grad_norm": 0.21783077716827393,
      "learning_rate": 8.49397847643606e-05,
      "loss": 0.509,
      "num_input_tokens_seen": 20736224,
      "step": 31695
    },
    {
      "epoch": 16.61425576519916,
      "grad_norm": 0.12371784448623657,
      "learning_rate": 8.481231666359723e-05,
      "loss": 0.3849,
      "num_input_tokens_seen": 20739424,
      "step": 31700
    },
    {
      "epoch": 16.616876310272538,
      "grad_norm": 0.18526999652385712,
      "learning_rate": 8.468493541536031e-05,
      "loss": 0.3305,
      "num_input_tokens_seen": 20741824,
      "step": 31705
    },
    {
      "epoch": 16.61949685534591,
      "grad_norm": 0.15353016555309296,
      "learning_rate": 8.455764104629681e-05,
      "loss": 0.3678,
      "num_input_tokens_seen": 20744896,
      "step": 31710
    },
    {
      "epoch": 16.622117400419288,
      "grad_norm": 0.18043772876262665,
      "learning_rate": 8.443043358303515e-05,
      "loss": 0.387,
      "num_input_tokens_seen": 20747776,
      "step": 31715
    },
    {
      "epoch": 16.62473794549266,
      "grad_norm": 0.11190631985664368,
      "learning_rate": 8.430331305218585e-05,
      "loss": 0.4253,
      "num_input_tokens_seen": 20750496,
      "step": 31720
    },
    {
      "epoch": 16.62735849056604,
      "grad_norm": 0.15767769515514374,
      "learning_rate": 8.417627948034096e-05,
      "loss": 0.4561,
      "num_input_tokens_seen": 20753216,
      "step": 31725
    },
    {
      "epoch": 16.629979035639412,
      "grad_norm": 0.238785058259964,
      "learning_rate": 8.404933289407424e-05,
      "loss": 0.5296,
      "num_input_tokens_seen": 20756608,
      "step": 31730
    },
    {
      "epoch": 16.63259958071279,
      "grad_norm": 0.23694157600402832,
      "learning_rate": 8.392247331994174e-05,
      "loss": 0.3502,
      "num_input_tokens_seen": 20759264,
      "step": 31735
    },
    {
      "epoch": 16.635220125786162,
      "grad_norm": 0.16271160542964935,
      "learning_rate": 8.37957007844809e-05,
      "loss": 0.3362,
      "num_input_tokens_seen": 20762432,
      "step": 31740
    },
    {
      "epoch": 16.63784067085954,
      "grad_norm": 0.2337697148323059,
      "learning_rate": 8.366901531421134e-05,
      "loss": 0.4039,
      "num_input_tokens_seen": 20765760,
      "step": 31745
    },
    {
      "epoch": 16.640461215932913,
      "grad_norm": 0.10715111345052719,
      "learning_rate": 8.354241693563385e-05,
      "loss": 0.5093,
      "num_input_tokens_seen": 20769376,
      "step": 31750
    },
    {
      "epoch": 16.64308176100629,
      "grad_norm": 0.13086265325546265,
      "learning_rate": 8.341590567523166e-05,
      "loss": 0.4536,
      "num_input_tokens_seen": 20772608,
      "step": 31755
    },
    {
      "epoch": 16.645702306079663,
      "grad_norm": 0.15330354869365692,
      "learning_rate": 8.328948155946924e-05,
      "loss": 0.4345,
      "num_input_tokens_seen": 20776288,
      "step": 31760
    },
    {
      "epoch": 16.64832285115304,
      "grad_norm": 0.24370059370994568,
      "learning_rate": 8.316314461479318e-05,
      "loss": 0.4934,
      "num_input_tokens_seen": 20780064,
      "step": 31765
    },
    {
      "epoch": 16.650943396226417,
      "grad_norm": 0.1511390507221222,
      "learning_rate": 8.303689486763177e-05,
      "loss": 0.4216,
      "num_input_tokens_seen": 20783040,
      "step": 31770
    },
    {
      "epoch": 16.65356394129979,
      "grad_norm": 0.1516406536102295,
      "learning_rate": 8.291073234439512e-05,
      "loss": 0.438,
      "num_input_tokens_seen": 20785952,
      "step": 31775
    },
    {
      "epoch": 16.656184486373167,
      "grad_norm": 0.1788574904203415,
      "learning_rate": 8.27846570714747e-05,
      "loss": 0.4575,
      "num_input_tokens_seen": 20788640,
      "step": 31780
    },
    {
      "epoch": 16.65880503144654,
      "grad_norm": 0.12446969002485275,
      "learning_rate": 8.265866907524427e-05,
      "loss": 0.4353,
      "num_input_tokens_seen": 20792832,
      "step": 31785
    },
    {
      "epoch": 16.661425576519918,
      "grad_norm": 0.1284254491329193,
      "learning_rate": 8.253276838205892e-05,
      "loss": 0.3612,
      "num_input_tokens_seen": 20796512,
      "step": 31790
    },
    {
      "epoch": 16.66404612159329,
      "grad_norm": 0.09991002827882767,
      "learning_rate": 8.240695501825568e-05,
      "loss": 0.3651,
      "num_input_tokens_seen": 20800160,
      "step": 31795
    },
    {
      "epoch": 16.666666666666668,
      "grad_norm": 0.1790207177400589,
      "learning_rate": 8.228122901015345e-05,
      "loss": 0.3592,
      "num_input_tokens_seen": 20802624,
      "step": 31800
    },
    {
      "epoch": 16.66928721174004,
      "grad_norm": 0.13579921424388885,
      "learning_rate": 8.21555903840524e-05,
      "loss": 0.2653,
      "num_input_tokens_seen": 20805984,
      "step": 31805
    },
    {
      "epoch": 16.671907756813418,
      "grad_norm": 0.12148288637399673,
      "learning_rate": 8.203003916623491e-05,
      "loss": 0.4137,
      "num_input_tokens_seen": 20809504,
      "step": 31810
    },
    {
      "epoch": 16.67452830188679,
      "grad_norm": 0.1704005002975464,
      "learning_rate": 8.190457538296464e-05,
      "loss": 0.3987,
      "num_input_tokens_seen": 20812736,
      "step": 31815
    },
    {
      "epoch": 16.67714884696017,
      "grad_norm": 0.15410727262496948,
      "learning_rate": 8.177919906048736e-05,
      "loss": 0.4319,
      "num_input_tokens_seen": 20815680,
      "step": 31820
    },
    {
      "epoch": 16.679769392033542,
      "grad_norm": 0.18052548170089722,
      "learning_rate": 8.165391022503044e-05,
      "loss": 0.3908,
      "num_input_tokens_seen": 20818880,
      "step": 31825
    },
    {
      "epoch": 16.68238993710692,
      "grad_norm": 0.14329878985881805,
      "learning_rate": 8.152870890280261e-05,
      "loss": 0.5262,
      "num_input_tokens_seen": 20821632,
      "step": 31830
    },
    {
      "epoch": 16.685010482180292,
      "grad_norm": 0.08431915938854218,
      "learning_rate": 8.140359511999473e-05,
      "loss": 0.41,
      "num_input_tokens_seen": 20824512,
      "step": 31835
    },
    {
      "epoch": 16.68763102725367,
      "grad_norm": 0.09556993097066879,
      "learning_rate": 8.127856890277923e-05,
      "loss": 0.5692,
      "num_input_tokens_seen": 20828192,
      "step": 31840
    },
    {
      "epoch": 16.690251572327043,
      "grad_norm": 0.12293417006731033,
      "learning_rate": 8.115363027730998e-05,
      "loss": 0.4901,
      "num_input_tokens_seen": 20831072,
      "step": 31845
    },
    {
      "epoch": 16.69287211740042,
      "grad_norm": 0.09697064757347107,
      "learning_rate": 8.102877926972286e-05,
      "loss": 0.4262,
      "num_input_tokens_seen": 20834880,
      "step": 31850
    },
    {
      "epoch": 16.695492662473793,
      "grad_norm": 0.11493068188428879,
      "learning_rate": 8.090401590613533e-05,
      "loss": 0.336,
      "num_input_tokens_seen": 20840928,
      "step": 31855
    },
    {
      "epoch": 16.69811320754717,
      "grad_norm": 0.20244894921779633,
      "learning_rate": 8.077934021264627e-05,
      "loss": 0.42,
      "num_input_tokens_seen": 20843808,
      "step": 31860
    },
    {
      "epoch": 16.700733752620543,
      "grad_norm": 0.18085885047912598,
      "learning_rate": 8.065475221533652e-05,
      "loss": 0.4217,
      "num_input_tokens_seen": 20847264,
      "step": 31865
    },
    {
      "epoch": 16.70335429769392,
      "grad_norm": 0.18441812694072723,
      "learning_rate": 8.053025194026858e-05,
      "loss": 0.4334,
      "num_input_tokens_seen": 20851264,
      "step": 31870
    },
    {
      "epoch": 16.705974842767297,
      "grad_norm": 0.137175515294075,
      "learning_rate": 8.040583941348623e-05,
      "loss": 0.4225,
      "num_input_tokens_seen": 20854048,
      "step": 31875
    },
    {
      "epoch": 16.70859538784067,
      "grad_norm": 0.15113840997219086,
      "learning_rate": 8.028151466101541e-05,
      "loss": 0.389,
      "num_input_tokens_seen": 20857472,
      "step": 31880
    },
    {
      "epoch": 16.711215932914047,
      "grad_norm": 0.11993929743766785,
      "learning_rate": 8.015727770886321e-05,
      "loss": 0.3878,
      "num_input_tokens_seen": 20860352,
      "step": 31885
    },
    {
      "epoch": 16.71383647798742,
      "grad_norm": 0.12543988227844238,
      "learning_rate": 8.00331285830187e-05,
      "loss": 0.3337,
      "num_input_tokens_seen": 20863808,
      "step": 31890
    },
    {
      "epoch": 16.716457023060798,
      "grad_norm": 0.25419071316719055,
      "learning_rate": 7.990906730945247e-05,
      "loss": 0.4994,
      "num_input_tokens_seen": 20867488,
      "step": 31895
    },
    {
      "epoch": 16.71907756813417,
      "grad_norm": 0.1448940485715866,
      "learning_rate": 7.978509391411681e-05,
      "loss": 0.4582,
      "num_input_tokens_seen": 20870336,
      "step": 31900
    },
    {
      "epoch": 16.721698113207548,
      "grad_norm": 0.11871359497308731,
      "learning_rate": 7.966120842294544e-05,
      "loss": 0.4218,
      "num_input_tokens_seen": 20874624,
      "step": 31905
    },
    {
      "epoch": 16.72431865828092,
      "grad_norm": 0.1179376170039177,
      "learning_rate": 7.953741086185368e-05,
      "loss": 0.6097,
      "num_input_tokens_seen": 20879456,
      "step": 31910
    },
    {
      "epoch": 16.7269392033543,
      "grad_norm": 0.12977872788906097,
      "learning_rate": 7.941370125673864e-05,
      "loss": 0.5342,
      "num_input_tokens_seen": 20883040,
      "step": 31915
    },
    {
      "epoch": 16.729559748427672,
      "grad_norm": 0.12269067764282227,
      "learning_rate": 7.9290079633479e-05,
      "loss": 0.3565,
      "num_input_tokens_seen": 20886304,
      "step": 31920
    },
    {
      "epoch": 16.73218029350105,
      "grad_norm": 0.12016177922487259,
      "learning_rate": 7.916654601793516e-05,
      "loss": 0.3369,
      "num_input_tokens_seen": 20889888,
      "step": 31925
    },
    {
      "epoch": 16.734800838574422,
      "grad_norm": 0.18953415751457214,
      "learning_rate": 7.904310043594859e-05,
      "loss": 0.4016,
      "num_input_tokens_seen": 20892896,
      "step": 31930
    },
    {
      "epoch": 16.7374213836478,
      "grad_norm": 0.16684292256832123,
      "learning_rate": 7.891974291334303e-05,
      "loss": 0.4399,
      "num_input_tokens_seen": 20896672,
      "step": 31935
    },
    {
      "epoch": 16.740041928721173,
      "grad_norm": 0.12948215007781982,
      "learning_rate": 7.879647347592322e-05,
      "loss": 0.428,
      "num_input_tokens_seen": 20900128,
      "step": 31940
    },
    {
      "epoch": 16.74266247379455,
      "grad_norm": 0.1485455185174942,
      "learning_rate": 7.867329214947578e-05,
      "loss": 0.4454,
      "num_input_tokens_seen": 20903872,
      "step": 31945
    },
    {
      "epoch": 16.745283018867923,
      "grad_norm": 0.16281670331954956,
      "learning_rate": 7.855019895976889e-05,
      "loss": 0.5198,
      "num_input_tokens_seen": 20907008,
      "step": 31950
    },
    {
      "epoch": 16.7479035639413,
      "grad_norm": 0.15958823263645172,
      "learning_rate": 7.842719393255232e-05,
      "loss": 0.4864,
      "num_input_tokens_seen": 20910048,
      "step": 31955
    },
    {
      "epoch": 16.750524109014677,
      "grad_norm": 0.10932479798793793,
      "learning_rate": 7.830427709355725e-05,
      "loss": 0.5044,
      "num_input_tokens_seen": 20914784,
      "step": 31960
    },
    {
      "epoch": 16.75314465408805,
      "grad_norm": 0.12589380145072937,
      "learning_rate": 7.818144846849634e-05,
      "loss": 0.374,
      "num_input_tokens_seen": 20918880,
      "step": 31965
    },
    {
      "epoch": 16.755765199161427,
      "grad_norm": 0.12303206324577332,
      "learning_rate": 7.805870808306403e-05,
      "loss": 0.3994,
      "num_input_tokens_seen": 20921696,
      "step": 31970
    },
    {
      "epoch": 16.7583857442348,
      "grad_norm": 0.1599751114845276,
      "learning_rate": 7.793605596293618e-05,
      "loss": 0.4255,
      "num_input_tokens_seen": 20925440,
      "step": 31975
    },
    {
      "epoch": 16.761006289308177,
      "grad_norm": 0.18234585225582123,
      "learning_rate": 7.781349213377048e-05,
      "loss": 0.3613,
      "num_input_tokens_seen": 20928032,
      "step": 31980
    },
    {
      "epoch": 16.76362683438155,
      "grad_norm": 0.14038985967636108,
      "learning_rate": 7.769101662120559e-05,
      "loss": 0.4734,
      "num_input_tokens_seen": 20930688,
      "step": 31985
    },
    {
      "epoch": 16.766247379454928,
      "grad_norm": 0.1507881134748459,
      "learning_rate": 7.756862945086196e-05,
      "loss": 0.3485,
      "num_input_tokens_seen": 20933888,
      "step": 31990
    },
    {
      "epoch": 16.7688679245283,
      "grad_norm": 0.13909271359443665,
      "learning_rate": 7.744633064834172e-05,
      "loss": 0.328,
      "num_input_tokens_seen": 20936896,
      "step": 31995
    },
    {
      "epoch": 16.771488469601678,
      "grad_norm": 0.13600341975688934,
      "learning_rate": 7.732412023922836e-05,
      "loss": 0.4442,
      "num_input_tokens_seen": 20940192,
      "step": 32000
    },
    {
      "epoch": 16.77410901467505,
      "grad_norm": 0.14027796685695648,
      "learning_rate": 7.720199824908692e-05,
      "loss": 0.4181,
      "num_input_tokens_seen": 20943168,
      "step": 32005
    },
    {
      "epoch": 16.77672955974843,
      "grad_norm": 0.12332917749881744,
      "learning_rate": 7.707996470346402e-05,
      "loss": 0.4753,
      "num_input_tokens_seen": 20946272,
      "step": 32010
    },
    {
      "epoch": 16.779350104821802,
      "grad_norm": 0.20378901064395905,
      "learning_rate": 7.695801962788756e-05,
      "loss": 0.4637,
      "num_input_tokens_seen": 20949024,
      "step": 32015
    },
    {
      "epoch": 16.78197064989518,
      "grad_norm": 0.1327655017375946,
      "learning_rate": 7.683616304786695e-05,
      "loss": 0.4298,
      "num_input_tokens_seen": 20952160,
      "step": 32020
    },
    {
      "epoch": 16.784591194968552,
      "grad_norm": 0.16633522510528564,
      "learning_rate": 7.671439498889332e-05,
      "loss": 0.4874,
      "num_input_tokens_seen": 20956192,
      "step": 32025
    },
    {
      "epoch": 16.78721174004193,
      "grad_norm": 0.2290962040424347,
      "learning_rate": 7.65927154764392e-05,
      "loss": 0.3562,
      "num_input_tokens_seen": 20958816,
      "step": 32030
    },
    {
      "epoch": 16.789832285115303,
      "grad_norm": 0.1740197092294693,
      "learning_rate": 7.647112453595862e-05,
      "loss": 0.4061,
      "num_input_tokens_seen": 20961600,
      "step": 32035
    },
    {
      "epoch": 16.79245283018868,
      "grad_norm": 0.11845086514949799,
      "learning_rate": 7.634962219288688e-05,
      "loss": 0.5691,
      "num_input_tokens_seen": 20964832,
      "step": 32040
    },
    {
      "epoch": 16.795073375262053,
      "grad_norm": 0.2534324824810028,
      "learning_rate": 7.622820847264083e-05,
      "loss": 0.4669,
      "num_input_tokens_seen": 20967232,
      "step": 32045
    },
    {
      "epoch": 16.79769392033543,
      "grad_norm": 0.17752844095230103,
      "learning_rate": 7.610688340061894e-05,
      "loss": 0.4641,
      "num_input_tokens_seen": 20969952,
      "step": 32050
    },
    {
      "epoch": 16.800314465408803,
      "grad_norm": 0.12937583029270172,
      "learning_rate": 7.598564700220101e-05,
      "loss": 0.4251,
      "num_input_tokens_seen": 20973856,
      "step": 32055
    },
    {
      "epoch": 16.80293501048218,
      "grad_norm": 0.08040130883455276,
      "learning_rate": 7.586449930274842e-05,
      "loss": 0.5257,
      "num_input_tokens_seen": 20977472,
      "step": 32060
    },
    {
      "epoch": 16.805555555555557,
      "grad_norm": 0.09894777089357376,
      "learning_rate": 7.574344032760367e-05,
      "loss": 0.3859,
      "num_input_tokens_seen": 20981248,
      "step": 32065
    },
    {
      "epoch": 16.80817610062893,
      "grad_norm": 0.12202807515859604,
      "learning_rate": 7.562247010209111e-05,
      "loss": 0.4235,
      "num_input_tokens_seen": 20985024,
      "step": 32070
    },
    {
      "epoch": 16.810796645702307,
      "grad_norm": 0.11695298552513123,
      "learning_rate": 7.550158865151618e-05,
      "loss": 0.3833,
      "num_input_tokens_seen": 20988128,
      "step": 32075
    },
    {
      "epoch": 16.81341719077568,
      "grad_norm": 0.210539773106575,
      "learning_rate": 7.538079600116593e-05,
      "loss": 0.4593,
      "num_input_tokens_seen": 20991552,
      "step": 32080
    },
    {
      "epoch": 16.816037735849058,
      "grad_norm": 0.25077059864997864,
      "learning_rate": 7.526009217630886e-05,
      "loss": 0.5438,
      "num_input_tokens_seen": 20995296,
      "step": 32085
    },
    {
      "epoch": 16.81865828092243,
      "grad_norm": 0.10199820250272751,
      "learning_rate": 7.513947720219494e-05,
      "loss": 0.3132,
      "num_input_tokens_seen": 20999136,
      "step": 32090
    },
    {
      "epoch": 16.821278825995808,
      "grad_norm": 0.15099750459194183,
      "learning_rate": 7.501895110405533e-05,
      "loss": 0.4662,
      "num_input_tokens_seen": 21002592,
      "step": 32095
    },
    {
      "epoch": 16.82389937106918,
      "grad_norm": 0.10463573038578033,
      "learning_rate": 7.489851390710262e-05,
      "loss": 0.4135,
      "num_input_tokens_seen": 21005440,
      "step": 32100
    },
    {
      "epoch": 16.82651991614256,
      "grad_norm": 0.17424437403678894,
      "learning_rate": 7.477816563653095e-05,
      "loss": 0.4699,
      "num_input_tokens_seen": 21008832,
      "step": 32105
    },
    {
      "epoch": 16.829140461215932,
      "grad_norm": 0.22233238816261292,
      "learning_rate": 7.465790631751584e-05,
      "loss": 0.3439,
      "num_input_tokens_seen": 21012128,
      "step": 32110
    },
    {
      "epoch": 16.83176100628931,
      "grad_norm": 0.2288626879453659,
      "learning_rate": 7.453773597521429e-05,
      "loss": 0.4035,
      "num_input_tokens_seen": 21014944,
      "step": 32115
    },
    {
      "epoch": 16.834381551362682,
      "grad_norm": 0.09386111795902252,
      "learning_rate": 7.44176546347643e-05,
      "loss": 0.4054,
      "num_input_tokens_seen": 21018784,
      "step": 32120
    },
    {
      "epoch": 16.83700209643606,
      "grad_norm": 0.13555707037448883,
      "learning_rate": 7.429766232128583e-05,
      "loss": 0.3705,
      "num_input_tokens_seen": 21021728,
      "step": 32125
    },
    {
      "epoch": 16.839622641509433,
      "grad_norm": 0.1341570019721985,
      "learning_rate": 7.417775905987956e-05,
      "loss": 0.3627,
      "num_input_tokens_seen": 21024768,
      "step": 32130
    },
    {
      "epoch": 16.84224318658281,
      "grad_norm": 0.16698215901851654,
      "learning_rate": 7.405794487562811e-05,
      "loss": 0.493,
      "num_input_tokens_seen": 21031456,
      "step": 32135
    },
    {
      "epoch": 16.844863731656183,
      "grad_norm": 0.10459814220666885,
      "learning_rate": 7.393821979359528e-05,
      "loss": 0.4144,
      "num_input_tokens_seen": 21034624,
      "step": 32140
    },
    {
      "epoch": 16.84748427672956,
      "grad_norm": 0.13614240288734436,
      "learning_rate": 7.3818583838826e-05,
      "loss": 0.4301,
      "num_input_tokens_seen": 21038560,
      "step": 32145
    },
    {
      "epoch": 16.850104821802937,
      "grad_norm": 0.12051679193973541,
      "learning_rate": 7.369903703634684e-05,
      "loss": 0.4289,
      "num_input_tokens_seen": 21041920,
      "step": 32150
    },
    {
      "epoch": 16.85272536687631,
      "grad_norm": 0.127935528755188,
      "learning_rate": 7.357957941116572e-05,
      "loss": 0.3102,
      "num_input_tokens_seen": 21045344,
      "step": 32155
    },
    {
      "epoch": 16.855345911949687,
      "grad_norm": 0.18428045511245728,
      "learning_rate": 7.346021098827166e-05,
      "loss": 0.3716,
      "num_input_tokens_seen": 21047936,
      "step": 32160
    },
    {
      "epoch": 16.85796645702306,
      "grad_norm": 0.16105800867080688,
      "learning_rate": 7.334093179263518e-05,
      "loss": 0.5043,
      "num_input_tokens_seen": 21050752,
      "step": 32165
    },
    {
      "epoch": 16.860587002096437,
      "grad_norm": 0.1573825180530548,
      "learning_rate": 7.322174184920837e-05,
      "loss": 0.3747,
      "num_input_tokens_seen": 21054112,
      "step": 32170
    },
    {
      "epoch": 16.86320754716981,
      "grad_norm": 0.1266670674085617,
      "learning_rate": 7.310264118292404e-05,
      "loss": 0.5434,
      "num_input_tokens_seen": 21056800,
      "step": 32175
    },
    {
      "epoch": 16.865828092243188,
      "grad_norm": 0.17521467804908752,
      "learning_rate": 7.298362981869705e-05,
      "loss": 0.3528,
      "num_input_tokens_seen": 21059712,
      "step": 32180
    },
    {
      "epoch": 16.86844863731656,
      "grad_norm": 0.25919800996780396,
      "learning_rate": 7.286470778142284e-05,
      "loss": 0.487,
      "num_input_tokens_seen": 21062304,
      "step": 32185
    },
    {
      "epoch": 16.871069182389938,
      "grad_norm": 0.170210063457489,
      "learning_rate": 7.274587509597886e-05,
      "loss": 0.4123,
      "num_input_tokens_seen": 21065408,
      "step": 32190
    },
    {
      "epoch": 16.87368972746331,
      "grad_norm": 0.1909210979938507,
      "learning_rate": 7.262713178722346e-05,
      "loss": 0.6009,
      "num_input_tokens_seen": 21069216,
      "step": 32195
    },
    {
      "epoch": 16.87631027253669,
      "grad_norm": 0.20176514983177185,
      "learning_rate": 7.250847787999625e-05,
      "loss": 0.4073,
      "num_input_tokens_seen": 21071872,
      "step": 32200
    },
    {
      "epoch": 16.878930817610062,
      "grad_norm": 0.12419959902763367,
      "learning_rate": 7.238991339911844e-05,
      "loss": 0.38,
      "num_input_tokens_seen": 21075552,
      "step": 32205
    },
    {
      "epoch": 16.88155136268344,
      "grad_norm": 0.1445733904838562,
      "learning_rate": 7.227143836939237e-05,
      "loss": 0.3396,
      "num_input_tokens_seen": 21078656,
      "step": 32210
    },
    {
      "epoch": 16.884171907756812,
      "grad_norm": 0.20123781263828278,
      "learning_rate": 7.215305281560153e-05,
      "loss": 0.3784,
      "num_input_tokens_seen": 21081216,
      "step": 32215
    },
    {
      "epoch": 16.88679245283019,
      "grad_norm": 0.1085616797208786,
      "learning_rate": 7.203475676251104e-05,
      "loss": 0.4044,
      "num_input_tokens_seen": 21084096,
      "step": 32220
    },
    {
      "epoch": 16.889412997903563,
      "grad_norm": 0.12811113893985748,
      "learning_rate": 7.191655023486682e-05,
      "loss": 0.3442,
      "num_input_tokens_seen": 21087232,
      "step": 32225
    },
    {
      "epoch": 16.89203354297694,
      "grad_norm": 0.1320279836654663,
      "learning_rate": 7.179843325739644e-05,
      "loss": 0.4507,
      "num_input_tokens_seen": 21090272,
      "step": 32230
    },
    {
      "epoch": 16.894654088050313,
      "grad_norm": 0.11492007225751877,
      "learning_rate": 7.168040585480861e-05,
      "loss": 0.4306,
      "num_input_tokens_seen": 21093152,
      "step": 32235
    },
    {
      "epoch": 16.89727463312369,
      "grad_norm": 0.23941485583782196,
      "learning_rate": 7.156246805179351e-05,
      "loss": 0.5271,
      "num_input_tokens_seen": 21096224,
      "step": 32240
    },
    {
      "epoch": 16.899895178197063,
      "grad_norm": 0.1671399474143982,
      "learning_rate": 7.144461987302208e-05,
      "loss": 0.4541,
      "num_input_tokens_seen": 21099072,
      "step": 32245
    },
    {
      "epoch": 16.90251572327044,
      "grad_norm": 0.15891195833683014,
      "learning_rate": 7.132686134314714e-05,
      "loss": 0.4177,
      "num_input_tokens_seen": 21101888,
      "step": 32250
    },
    {
      "epoch": 16.905136268343817,
      "grad_norm": 0.07109542936086655,
      "learning_rate": 7.120919248680208e-05,
      "loss": 0.454,
      "num_input_tokens_seen": 21105152,
      "step": 32255
    },
    {
      "epoch": 16.90775681341719,
      "grad_norm": 0.15172939002513885,
      "learning_rate": 7.109161332860203e-05,
      "loss": 0.5087,
      "num_input_tokens_seen": 21108576,
      "step": 32260
    },
    {
      "epoch": 16.910377358490567,
      "grad_norm": 0.06869810819625854,
      "learning_rate": 7.097412389314322e-05,
      "loss": 0.474,
      "num_input_tokens_seen": 21112192,
      "step": 32265
    },
    {
      "epoch": 16.91299790356394,
      "grad_norm": 0.16575776040554047,
      "learning_rate": 7.085672420500322e-05,
      "loss": 0.3858,
      "num_input_tokens_seen": 21115104,
      "step": 32270
    },
    {
      "epoch": 16.915618448637318,
      "grad_norm": 0.17718172073364258,
      "learning_rate": 7.073941428874064e-05,
      "loss": 0.448,
      "num_input_tokens_seen": 21118624,
      "step": 32275
    },
    {
      "epoch": 16.91823899371069,
      "grad_norm": 0.08155518025159836,
      "learning_rate": 7.062219416889514e-05,
      "loss": 0.315,
      "num_input_tokens_seen": 21122784,
      "step": 32280
    },
    {
      "epoch": 16.920859538784068,
      "grad_norm": 0.20845898985862732,
      "learning_rate": 7.050506386998806e-05,
      "loss": 0.2579,
      "num_input_tokens_seen": 21125920,
      "step": 32285
    },
    {
      "epoch": 16.92348008385744,
      "grad_norm": 0.12511706352233887,
      "learning_rate": 7.038802341652172e-05,
      "loss": 0.4452,
      "num_input_tokens_seen": 21131488,
      "step": 32290
    },
    {
      "epoch": 16.92610062893082,
      "grad_norm": 0.11135945469141006,
      "learning_rate": 7.027107283297967e-05,
      "loss": 0.5004,
      "num_input_tokens_seen": 21134688,
      "step": 32295
    },
    {
      "epoch": 16.928721174004192,
      "grad_norm": 0.14666162431240082,
      "learning_rate": 7.015421214382661e-05,
      "loss": 0.393,
      "num_input_tokens_seen": 21137248,
      "step": 32300
    },
    {
      "epoch": 16.93134171907757,
      "grad_norm": 0.12602189183235168,
      "learning_rate": 7.003744137350827e-05,
      "loss": 0.5467,
      "num_input_tokens_seen": 21140800,
      "step": 32305
    },
    {
      "epoch": 16.933962264150942,
      "grad_norm": 0.1461568921804428,
      "learning_rate": 6.992076054645197e-05,
      "loss": 0.5089,
      "num_input_tokens_seen": 21144032,
      "step": 32310
    },
    {
      "epoch": 16.93658280922432,
      "grad_norm": 0.13944539427757263,
      "learning_rate": 6.980416968706594e-05,
      "loss": 0.3454,
      "num_input_tokens_seen": 21146528,
      "step": 32315
    },
    {
      "epoch": 16.939203354297693,
      "grad_norm": 0.24799902737140656,
      "learning_rate": 6.968766881973965e-05,
      "loss": 0.4289,
      "num_input_tokens_seen": 21149728,
      "step": 32320
    },
    {
      "epoch": 16.94182389937107,
      "grad_norm": 0.1764315515756607,
      "learning_rate": 6.957125796884395e-05,
      "loss": 0.4993,
      "num_input_tokens_seen": 21153568,
      "step": 32325
    },
    {
      "epoch": 16.944444444444443,
      "grad_norm": 0.13576894998550415,
      "learning_rate": 6.945493715873046e-05,
      "loss": 0.4829,
      "num_input_tokens_seen": 21158144,
      "step": 32330
    },
    {
      "epoch": 16.94706498951782,
      "grad_norm": 0.18588881194591522,
      "learning_rate": 6.933870641373208e-05,
      "loss": 0.4834,
      "num_input_tokens_seen": 21161344,
      "step": 32335
    },
    {
      "epoch": 16.949685534591197,
      "grad_norm": 0.09568055719137192,
      "learning_rate": 6.92225657581631e-05,
      "loss": 0.3841,
      "num_input_tokens_seen": 21166368,
      "step": 32340
    },
    {
      "epoch": 16.95230607966457,
      "grad_norm": 0.09266103059053421,
      "learning_rate": 6.910651521631877e-05,
      "loss": 0.6032,
      "num_input_tokens_seen": 21169440,
      "step": 32345
    },
    {
      "epoch": 16.954926624737947,
      "grad_norm": 0.12606993317604065,
      "learning_rate": 6.899055481247568e-05,
      "loss": 0.4367,
      "num_input_tokens_seen": 21172544,
      "step": 32350
    },
    {
      "epoch": 16.95754716981132,
      "grad_norm": 0.09815499931573868,
      "learning_rate": 6.88746845708913e-05,
      "loss": 0.3582,
      "num_input_tokens_seen": 21176192,
      "step": 32355
    },
    {
      "epoch": 16.960167714884697,
      "grad_norm": 0.1289328783750534,
      "learning_rate": 6.87589045158043e-05,
      "loss": 0.4626,
      "num_input_tokens_seen": 21179424,
      "step": 32360
    },
    {
      "epoch": 16.96278825995807,
      "grad_norm": 0.12972961366176605,
      "learning_rate": 6.864321467143459e-05,
      "loss": 0.343,
      "num_input_tokens_seen": 21182272,
      "step": 32365
    },
    {
      "epoch": 16.965408805031448,
      "grad_norm": 0.19355829060077667,
      "learning_rate": 6.852761506198319e-05,
      "loss": 0.5151,
      "num_input_tokens_seen": 21186048,
      "step": 32370
    },
    {
      "epoch": 16.96802935010482,
      "grad_norm": 0.12347716838121414,
      "learning_rate": 6.841210571163231e-05,
      "loss": 0.3867,
      "num_input_tokens_seen": 21189024,
      "step": 32375
    },
    {
      "epoch": 16.970649895178198,
      "grad_norm": 0.12995295226573944,
      "learning_rate": 6.829668664454513e-05,
      "loss": 0.4618,
      "num_input_tokens_seen": 21192576,
      "step": 32380
    },
    {
      "epoch": 16.97327044025157,
      "grad_norm": 0.11949379742145538,
      "learning_rate": 6.818135788486584e-05,
      "loss": 0.4723,
      "num_input_tokens_seen": 21195616,
      "step": 32385
    },
    {
      "epoch": 16.97589098532495,
      "grad_norm": 0.10098280757665634,
      "learning_rate": 6.806611945672004e-05,
      "loss": 0.397,
      "num_input_tokens_seen": 21199584,
      "step": 32390
    },
    {
      "epoch": 16.978511530398322,
      "grad_norm": 0.07266845554113388,
      "learning_rate": 6.79509713842143e-05,
      "loss": 0.473,
      "num_input_tokens_seen": 21203008,
      "step": 32395
    },
    {
      "epoch": 16.9811320754717,
      "grad_norm": 0.19760754704475403,
      "learning_rate": 6.783591369143626e-05,
      "loss": 0.4697,
      "num_input_tokens_seen": 21206080,
      "step": 32400
    },
    {
      "epoch": 16.983752620545072,
      "grad_norm": 0.26126450300216675,
      "learning_rate": 6.77209464024548e-05,
      "loss": 0.5188,
      "num_input_tokens_seen": 21209088,
      "step": 32405
    },
    {
      "epoch": 16.98637316561845,
      "grad_norm": 0.16763615608215332,
      "learning_rate": 6.760606954131965e-05,
      "loss": 0.3994,
      "num_input_tokens_seen": 21212288,
      "step": 32410
    },
    {
      "epoch": 16.988993710691823,
      "grad_norm": 0.18860311806201935,
      "learning_rate": 6.749128313206165e-05,
      "loss": 0.472,
      "num_input_tokens_seen": 21214560,
      "step": 32415
    },
    {
      "epoch": 16.9916142557652,
      "grad_norm": 0.3423997759819031,
      "learning_rate": 6.737658719869288e-05,
      "loss": 0.7333,
      "num_input_tokens_seen": 21217056,
      "step": 32420
    },
    {
      "epoch": 16.994234800838573,
      "grad_norm": 0.10347051173448563,
      "learning_rate": 6.726198176520642e-05,
      "loss": 0.4433,
      "num_input_tokens_seen": 21220224,
      "step": 32425
    },
    {
      "epoch": 16.99685534591195,
      "grad_norm": 0.13004431128501892,
      "learning_rate": 6.71474668555766e-05,
      "loss": 0.5143,
      "num_input_tokens_seen": 21223360,
      "step": 32430
    },
    {
      "epoch": 16.999475890985323,
      "grad_norm": 0.14324702322483063,
      "learning_rate": 6.703304249375836e-05,
      "loss": 0.3979,
      "num_input_tokens_seen": 21226496,
      "step": 32435
    },
    {
      "epoch": 17.0,
      "eval_loss": 0.4543057978153229,
      "eval_runtime": 13.3188,
      "eval_samples_per_second": 63.669,
      "eval_steps_per_second": 15.917,
      "num_input_tokens_seen": 21226656,
      "step": 32436
    },
    {
      "epoch": 17.0020964360587,
      "grad_norm": 0.13730685412883759,
      "learning_rate": 6.691870870368815e-05,
      "loss": 0.4042,
      "num_input_tokens_seen": 21228800,
      "step": 32440
    },
    {
      "epoch": 17.004716981132077,
      "grad_norm": 0.1065424233675003,
      "learning_rate": 6.680446550928316e-05,
      "loss": 0.6019,
      "num_input_tokens_seen": 21232416,
      "step": 32445
    },
    {
      "epoch": 17.00733752620545,
      "grad_norm": 0.19624806940555573,
      "learning_rate": 6.669031293444177e-05,
      "loss": 0.3646,
      "num_input_tokens_seen": 21235168,
      "step": 32450
    },
    {
      "epoch": 17.009958071278827,
      "grad_norm": 0.11763985455036163,
      "learning_rate": 6.65762510030436e-05,
      "loss": 0.362,
      "num_input_tokens_seen": 21237952,
      "step": 32455
    },
    {
      "epoch": 17.0125786163522,
      "grad_norm": 0.1590084582567215,
      "learning_rate": 6.646227973894886e-05,
      "loss": 0.3877,
      "num_input_tokens_seen": 21241056,
      "step": 32460
    },
    {
      "epoch": 17.015199161425578,
      "grad_norm": 0.15880289673805237,
      "learning_rate": 6.634839916599921e-05,
      "loss": 0.374,
      "num_input_tokens_seen": 21244960,
      "step": 32465
    },
    {
      "epoch": 17.01781970649895,
      "grad_norm": 0.13953429460525513,
      "learning_rate": 6.623460930801701e-05,
      "loss": 0.5068,
      "num_input_tokens_seen": 21247936,
      "step": 32470
    },
    {
      "epoch": 17.020440251572328,
      "grad_norm": 0.16543790698051453,
      "learning_rate": 6.61209101888059e-05,
      "loss": 0.4455,
      "num_input_tokens_seen": 21251104,
      "step": 32475
    },
    {
      "epoch": 17.0230607966457,
      "grad_norm": 0.13840550184249878,
      "learning_rate": 6.600730183215043e-05,
      "loss": 0.4878,
      "num_input_tokens_seen": 21255040,
      "step": 32480
    },
    {
      "epoch": 17.02568134171908,
      "grad_norm": 0.1878783404827118,
      "learning_rate": 6.589378426181624e-05,
      "loss": 0.4752,
      "num_input_tokens_seen": 21258336,
      "step": 32485
    },
    {
      "epoch": 17.028301886792452,
      "grad_norm": 0.2947075664997101,
      "learning_rate": 6.578035750154976e-05,
      "loss": 0.5133,
      "num_input_tokens_seen": 21261760,
      "step": 32490
    },
    {
      "epoch": 17.03092243186583,
      "grad_norm": 0.1316252201795578,
      "learning_rate": 6.566702157507875e-05,
      "loss": 0.3989,
      "num_input_tokens_seen": 21265056,
      "step": 32495
    },
    {
      "epoch": 17.033542976939202,
      "grad_norm": 0.2807612121105194,
      "learning_rate": 6.555377650611155e-05,
      "loss": 0.5155,
      "num_input_tokens_seen": 21271744,
      "step": 32500
    },
    {
      "epoch": 17.03616352201258,
      "grad_norm": 0.14138898253440857,
      "learning_rate": 6.544062231833792e-05,
      "loss": 0.4451,
      "num_input_tokens_seen": 21274368,
      "step": 32505
    },
    {
      "epoch": 17.038784067085953,
      "grad_norm": 0.22643372416496277,
      "learning_rate": 6.532755903542847e-05,
      "loss": 0.3949,
      "num_input_tokens_seen": 21277120,
      "step": 32510
    },
    {
      "epoch": 17.04140461215933,
      "grad_norm": 0.15612851083278656,
      "learning_rate": 6.521458668103458e-05,
      "loss": 0.4236,
      "num_input_tokens_seen": 21281632,
      "step": 32515
    },
    {
      "epoch": 17.044025157232703,
      "grad_norm": 0.08215827494859695,
      "learning_rate": 6.510170527878889e-05,
      "loss": 0.4184,
      "num_input_tokens_seen": 21284160,
      "step": 32520
    },
    {
      "epoch": 17.04664570230608,
      "grad_norm": 0.1803612858057022,
      "learning_rate": 6.498891485230491e-05,
      "loss": 0.5208,
      "num_input_tokens_seen": 21286752,
      "step": 32525
    },
    {
      "epoch": 17.049266247379453,
      "grad_norm": 0.12622152268886566,
      "learning_rate": 6.487621542517703e-05,
      "loss": 0.5613,
      "num_input_tokens_seen": 21290016,
      "step": 32530
    },
    {
      "epoch": 17.05188679245283,
      "grad_norm": 0.1633991152048111,
      "learning_rate": 6.476360702098078e-05,
      "loss": 0.3852,
      "num_input_tokens_seen": 21292832,
      "step": 32535
    },
    {
      "epoch": 17.054507337526207,
      "grad_norm": 0.14278681576251984,
      "learning_rate": 6.465108966327243e-05,
      "loss": 0.3508,
      "num_input_tokens_seen": 21296032,
      "step": 32540
    },
    {
      "epoch": 17.05712788259958,
      "grad_norm": 0.25090619921684265,
      "learning_rate": 6.453866337558939e-05,
      "loss": 0.4698,
      "num_input_tokens_seen": 21298624,
      "step": 32545
    },
    {
      "epoch": 17.059748427672957,
      "grad_norm": 0.16316913068294525,
      "learning_rate": 6.442632818145011e-05,
      "loss": 0.3337,
      "num_input_tokens_seen": 21301472,
      "step": 32550
    },
    {
      "epoch": 17.06236897274633,
      "grad_norm": 0.19070321321487427,
      "learning_rate": 6.431408410435352e-05,
      "loss": 0.5585,
      "num_input_tokens_seen": 21305600,
      "step": 32555
    },
    {
      "epoch": 17.064989517819708,
      "grad_norm": 0.1698780059814453,
      "learning_rate": 6.420193116778e-05,
      "loss": 0.436,
      "num_input_tokens_seen": 21308064,
      "step": 32560
    },
    {
      "epoch": 17.06761006289308,
      "grad_norm": 0.1432993859052658,
      "learning_rate": 6.408986939519074e-05,
      "loss": 0.4427,
      "num_input_tokens_seen": 21311200,
      "step": 32565
    },
    {
      "epoch": 17.070230607966458,
      "grad_norm": 0.1753656566143036,
      "learning_rate": 6.397789881002752e-05,
      "loss": 0.453,
      "num_input_tokens_seen": 21314528,
      "step": 32570
    },
    {
      "epoch": 17.07285115303983,
      "grad_norm": 0.17577095329761505,
      "learning_rate": 6.386601943571352e-05,
      "loss": 0.4563,
      "num_input_tokens_seen": 21317952,
      "step": 32575
    },
    {
      "epoch": 17.07547169811321,
      "grad_norm": 0.3726541996002197,
      "learning_rate": 6.375423129565266e-05,
      "loss": 0.3651,
      "num_input_tokens_seen": 21321440,
      "step": 32580
    },
    {
      "epoch": 17.078092243186582,
      "grad_norm": 0.1147538498044014,
      "learning_rate": 6.36425344132296e-05,
      "loss": 0.4646,
      "num_input_tokens_seen": 21324704,
      "step": 32585
    },
    {
      "epoch": 17.08071278825996,
      "grad_norm": 0.15034618973731995,
      "learning_rate": 6.353092881181016e-05,
      "loss": 0.3235,
      "num_input_tokens_seen": 21327040,
      "step": 32590
    },
    {
      "epoch": 17.083333333333332,
      "grad_norm": 0.17319020628929138,
      "learning_rate": 6.341941451474082e-05,
      "loss": 0.4177,
      "num_input_tokens_seen": 21329824,
      "step": 32595
    },
    {
      "epoch": 17.08595387840671,
      "grad_norm": 0.11933089047670364,
      "learning_rate": 6.330799154534921e-05,
      "loss": 0.418,
      "num_input_tokens_seen": 21333024,
      "step": 32600
    },
    {
      "epoch": 17.088574423480082,
      "grad_norm": 0.1196877583861351,
      "learning_rate": 6.319665992694368e-05,
      "loss": 0.426,
      "num_input_tokens_seen": 21336480,
      "step": 32605
    },
    {
      "epoch": 17.09119496855346,
      "grad_norm": 0.1484484076499939,
      "learning_rate": 6.308541968281373e-05,
      "loss": 0.396,
      "num_input_tokens_seen": 21340160,
      "step": 32610
    },
    {
      "epoch": 17.093815513626833,
      "grad_norm": 0.18034859001636505,
      "learning_rate": 6.297427083622936e-05,
      "loss": 0.3812,
      "num_input_tokens_seen": 21344096,
      "step": 32615
    },
    {
      "epoch": 17.09643605870021,
      "grad_norm": 0.08889194577932358,
      "learning_rate": 6.28632134104416e-05,
      "loss": 0.3828,
      "num_input_tokens_seen": 21347712,
      "step": 32620
    },
    {
      "epoch": 17.099056603773583,
      "grad_norm": 0.09517329931259155,
      "learning_rate": 6.275224742868247e-05,
      "loss": 0.4572,
      "num_input_tokens_seen": 21351168,
      "step": 32625
    },
    {
      "epoch": 17.10167714884696,
      "grad_norm": 0.2211964726448059,
      "learning_rate": 6.264137291416477e-05,
      "loss": 0.3601,
      "num_input_tokens_seen": 21354016,
      "step": 32630
    },
    {
      "epoch": 17.104297693920337,
      "grad_norm": 0.1982271820306778,
      "learning_rate": 6.253058989008226e-05,
      "loss": 0.6709,
      "num_input_tokens_seen": 21357440,
      "step": 32635
    },
    {
      "epoch": 17.10691823899371,
      "grad_norm": 0.12435197830200195,
      "learning_rate": 6.241989837960949e-05,
      "loss": 0.5395,
      "num_input_tokens_seen": 21360512,
      "step": 32640
    },
    {
      "epoch": 17.109538784067087,
      "grad_norm": 0.17885705828666687,
      "learning_rate": 6.230929840590177e-05,
      "loss": 0.3657,
      "num_input_tokens_seen": 21363040,
      "step": 32645
    },
    {
      "epoch": 17.11215932914046,
      "grad_norm": 0.14143195748329163,
      "learning_rate": 6.219878999209533e-05,
      "loss": 0.4377,
      "num_input_tokens_seen": 21365568,
      "step": 32650
    },
    {
      "epoch": 17.114779874213838,
      "grad_norm": 0.1328965425491333,
      "learning_rate": 6.208837316130733e-05,
      "loss": 0.5572,
      "num_input_tokens_seen": 21368960,
      "step": 32655
    },
    {
      "epoch": 17.11740041928721,
      "grad_norm": 0.3714507222175598,
      "learning_rate": 6.197804793663564e-05,
      "loss": 0.5247,
      "num_input_tokens_seen": 21371712,
      "step": 32660
    },
    {
      "epoch": 17.120020964360588,
      "grad_norm": 0.1749354600906372,
      "learning_rate": 6.18678143411593e-05,
      "loss": 0.4095,
      "num_input_tokens_seen": 21375040,
      "step": 32665
    },
    {
      "epoch": 17.12264150943396,
      "grad_norm": 0.1233166754245758,
      "learning_rate": 6.175767239793767e-05,
      "loss": 0.3948,
      "num_input_tokens_seen": 21378880,
      "step": 32670
    },
    {
      "epoch": 17.12526205450734,
      "grad_norm": 0.1747480183839798,
      "learning_rate": 6.164762213001112e-05,
      "loss": 0.4166,
      "num_input_tokens_seen": 21382048,
      "step": 32675
    },
    {
      "epoch": 17.127882599580712,
      "grad_norm": 0.09838488698005676,
      "learning_rate": 6.153766356040107e-05,
      "loss": 0.3835,
      "num_input_tokens_seen": 21385888,
      "step": 32680
    },
    {
      "epoch": 17.13050314465409,
      "grad_norm": 0.11181259900331497,
      "learning_rate": 6.142779671210951e-05,
      "loss": 0.4114,
      "num_input_tokens_seen": 21390208,
      "step": 32685
    },
    {
      "epoch": 17.133123689727462,
      "grad_norm": 0.13658422231674194,
      "learning_rate": 6.131802160811956e-05,
      "loss": 0.3506,
      "num_input_tokens_seen": 21393824,
      "step": 32690
    },
    {
      "epoch": 17.13574423480084,
      "grad_norm": 0.09748813509941101,
      "learning_rate": 6.120833827139466e-05,
      "loss": 0.3495,
      "num_input_tokens_seen": 21396960,
      "step": 32695
    },
    {
      "epoch": 17.138364779874212,
      "grad_norm": 0.1373976171016693,
      "learning_rate": 6.109874672487936e-05,
      "loss": 0.5466,
      "num_input_tokens_seen": 21400832,
      "step": 32700
    },
    {
      "epoch": 17.14098532494759,
      "grad_norm": 0.08497661352157593,
      "learning_rate": 6.098924699149894e-05,
      "loss": 0.3991,
      "num_input_tokens_seen": 21405120,
      "step": 32705
    },
    {
      "epoch": 17.143605870020963,
      "grad_norm": 0.2748606503009796,
      "learning_rate": 6.087983909415962e-05,
      "loss": 0.4122,
      "num_input_tokens_seen": 21407840,
      "step": 32710
    },
    {
      "epoch": 17.14622641509434,
      "grad_norm": 0.11609166115522385,
      "learning_rate": 6.077052305574815e-05,
      "loss": 0.4384,
      "num_input_tokens_seen": 21411616,
      "step": 32715
    },
    {
      "epoch": 17.148846960167713,
      "grad_norm": 0.22400568425655365,
      "learning_rate": 6.066129889913241e-05,
      "loss": 0.3724,
      "num_input_tokens_seen": 21414528,
      "step": 32720
    },
    {
      "epoch": 17.15146750524109,
      "grad_norm": 0.1235894113779068,
      "learning_rate": 6.0552166647160676e-05,
      "loss": 0.4073,
      "num_input_tokens_seen": 21417344,
      "step": 32725
    },
    {
      "epoch": 17.154088050314467,
      "grad_norm": 0.2759276032447815,
      "learning_rate": 6.044312632266208e-05,
      "loss": 0.4593,
      "num_input_tokens_seen": 21420000,
      "step": 32730
    },
    {
      "epoch": 17.15670859538784,
      "grad_norm": 0.228924959897995,
      "learning_rate": 6.03341779484467e-05,
      "loss": 0.4465,
      "num_input_tokens_seen": 21423104,
      "step": 32735
    },
    {
      "epoch": 17.159329140461217,
      "grad_norm": 0.13516809046268463,
      "learning_rate": 6.022532154730537e-05,
      "loss": 0.4418,
      "num_input_tokens_seen": 21427744,
      "step": 32740
    },
    {
      "epoch": 17.16194968553459,
      "grad_norm": 0.11130420863628387,
      "learning_rate": 6.011655714200964e-05,
      "loss": 0.3972,
      "num_input_tokens_seen": 21430976,
      "step": 32745
    },
    {
      "epoch": 17.164570230607968,
      "grad_norm": 0.19097207486629486,
      "learning_rate": 6.0007884755311715e-05,
      "loss": 0.4998,
      "num_input_tokens_seen": 21433664,
      "step": 32750
    },
    {
      "epoch": 17.16719077568134,
      "grad_norm": 0.2498813271522522,
      "learning_rate": 5.989930440994451e-05,
      "loss": 0.5091,
      "num_input_tokens_seen": 21436384,
      "step": 32755
    },
    {
      "epoch": 17.169811320754718,
      "grad_norm": 0.11946506798267365,
      "learning_rate": 5.979081612862186e-05,
      "loss": 0.4348,
      "num_input_tokens_seen": 21439520,
      "step": 32760
    },
    {
      "epoch": 17.17243186582809,
      "grad_norm": 0.1355477124452591,
      "learning_rate": 5.968241993403834e-05,
      "loss": 0.333,
      "num_input_tokens_seen": 21445504,
      "step": 32765
    },
    {
      "epoch": 17.17505241090147,
      "grad_norm": 0.18040357530117035,
      "learning_rate": 5.957411584886924e-05,
      "loss": 0.4305,
      "num_input_tokens_seen": 21451264,
      "step": 32770
    },
    {
      "epoch": 17.177672955974842,
      "grad_norm": 0.10957609862089157,
      "learning_rate": 5.946590389577033e-05,
      "loss": 0.4207,
      "num_input_tokens_seen": 21454144,
      "step": 32775
    },
    {
      "epoch": 17.18029350104822,
      "grad_norm": 0.10232594609260559,
      "learning_rate": 5.935778409737857e-05,
      "loss": 0.3791,
      "num_input_tokens_seen": 21456928,
      "step": 32780
    },
    {
      "epoch": 17.182914046121592,
      "grad_norm": 0.11749093234539032,
      "learning_rate": 5.92497564763112e-05,
      "loss": 0.3538,
      "num_input_tokens_seen": 21460032,
      "step": 32785
    },
    {
      "epoch": 17.18553459119497,
      "grad_norm": 0.24190562963485718,
      "learning_rate": 5.914182105516641e-05,
      "loss": 0.4811,
      "num_input_tokens_seen": 21463040,
      "step": 32790
    },
    {
      "epoch": 17.188155136268342,
      "grad_norm": 0.20382116734981537,
      "learning_rate": 5.903397785652304e-05,
      "loss": 0.7993,
      "num_input_tokens_seen": 21466336,
      "step": 32795
    },
    {
      "epoch": 17.19077568134172,
      "grad_norm": 0.16340339183807373,
      "learning_rate": 5.8926226902940804e-05,
      "loss": 0.4315,
      "num_input_tokens_seen": 21469440,
      "step": 32800
    },
    {
      "epoch": 17.193396226415093,
      "grad_norm": 0.20420515537261963,
      "learning_rate": 5.88185682169598e-05,
      "loss": 0.4553,
      "num_input_tokens_seen": 21472288,
      "step": 32805
    },
    {
      "epoch": 17.19601677148847,
      "grad_norm": 0.21492356061935425,
      "learning_rate": 5.871100182110117e-05,
      "loss": 0.4197,
      "num_input_tokens_seen": 21475136,
      "step": 32810
    },
    {
      "epoch": 17.198637316561843,
      "grad_norm": 0.20289075374603271,
      "learning_rate": 5.8603527737866314e-05,
      "loss": 0.4169,
      "num_input_tokens_seen": 21477632,
      "step": 32815
    },
    {
      "epoch": 17.20125786163522,
      "grad_norm": 0.10034032166004181,
      "learning_rate": 5.849614598973779e-05,
      "loss": 0.4557,
      "num_input_tokens_seen": 21481120,
      "step": 32820
    },
    {
      "epoch": 17.203878406708597,
      "grad_norm": 0.24891522526741028,
      "learning_rate": 5.8388856599178644e-05,
      "loss": 0.3487,
      "num_input_tokens_seen": 21483872,
      "step": 32825
    },
    {
      "epoch": 17.20649895178197,
      "grad_norm": 0.08900811523199081,
      "learning_rate": 5.8281659588632464e-05,
      "loss": 0.4167,
      "num_input_tokens_seen": 21487840,
      "step": 32830
    },
    {
      "epoch": 17.209119496855347,
      "grad_norm": 0.13447508215904236,
      "learning_rate": 5.817455498052382e-05,
      "loss": 0.3561,
      "num_input_tokens_seen": 21490880,
      "step": 32835
    },
    {
      "epoch": 17.21174004192872,
      "grad_norm": 0.10207498073577881,
      "learning_rate": 5.806754279725751e-05,
      "loss": 0.4057,
      "num_input_tokens_seen": 21494656,
      "step": 32840
    },
    {
      "epoch": 17.214360587002098,
      "grad_norm": 0.1467864066362381,
      "learning_rate": 5.796062306121947e-05,
      "loss": 0.3426,
      "num_input_tokens_seen": 21497696,
      "step": 32845
    },
    {
      "epoch": 17.21698113207547,
      "grad_norm": 0.13166294991970062,
      "learning_rate": 5.785379579477607e-05,
      "loss": 0.4842,
      "num_input_tokens_seen": 21500640,
      "step": 32850
    },
    {
      "epoch": 17.219601677148848,
      "grad_norm": 0.13746513426303864,
      "learning_rate": 5.774706102027427e-05,
      "loss": 0.4887,
      "num_input_tokens_seen": 21503808,
      "step": 32855
    },
    {
      "epoch": 17.22222222222222,
      "grad_norm": 0.207554429769516,
      "learning_rate": 5.7640418760041776e-05,
      "loss": 0.631,
      "num_input_tokens_seen": 21506944,
      "step": 32860
    },
    {
      "epoch": 17.2248427672956,
      "grad_norm": 0.2507173418998718,
      "learning_rate": 5.753386903638713e-05,
      "loss": 0.5018,
      "num_input_tokens_seen": 21509824,
      "step": 32865
    },
    {
      "epoch": 17.22746331236897,
      "grad_norm": 0.24777814745903015,
      "learning_rate": 5.7427411871599e-05,
      "loss": 0.3648,
      "num_input_tokens_seen": 21512864,
      "step": 32870
    },
    {
      "epoch": 17.23008385744235,
      "grad_norm": 0.16258814930915833,
      "learning_rate": 5.7321047287947235e-05,
      "loss": 0.3629,
      "num_input_tokens_seen": 21516320,
      "step": 32875
    },
    {
      "epoch": 17.232704402515722,
      "grad_norm": 0.17327816784381866,
      "learning_rate": 5.72147753076821e-05,
      "loss": 0.475,
      "num_input_tokens_seen": 21522240,
      "step": 32880
    },
    {
      "epoch": 17.2353249475891,
      "grad_norm": 0.22307038307189941,
      "learning_rate": 5.7108595953034306e-05,
      "loss": 0.5137,
      "num_input_tokens_seen": 21525952,
      "step": 32885
    },
    {
      "epoch": 17.237945492662472,
      "grad_norm": 0.07272034138441086,
      "learning_rate": 5.7002509246215415e-05,
      "loss": 0.3383,
      "num_input_tokens_seen": 21530528,
      "step": 32890
    },
    {
      "epoch": 17.24056603773585,
      "grad_norm": 0.2131352573633194,
      "learning_rate": 5.68965152094178e-05,
      "loss": 0.6697,
      "num_input_tokens_seen": 21534400,
      "step": 32895
    },
    {
      "epoch": 17.243186582809223,
      "grad_norm": 0.12900137901306152,
      "learning_rate": 5.679061386481388e-05,
      "loss": 0.3533,
      "num_input_tokens_seen": 21537248,
      "step": 32900
    },
    {
      "epoch": 17.2458071278826,
      "grad_norm": 0.1455630213022232,
      "learning_rate": 5.6684805234557216e-05,
      "loss": 0.4587,
      "num_input_tokens_seen": 21539808,
      "step": 32905
    },
    {
      "epoch": 17.248427672955973,
      "grad_norm": 0.30172964930534363,
      "learning_rate": 5.65790893407816e-05,
      "loss": 0.3786,
      "num_input_tokens_seen": 21546656,
      "step": 32910
    },
    {
      "epoch": 17.25104821802935,
      "grad_norm": 0.16378524899482727,
      "learning_rate": 5.647346620560168e-05,
      "loss": 0.4386,
      "num_input_tokens_seen": 21549152,
      "step": 32915
    },
    {
      "epoch": 17.253668763102727,
      "grad_norm": 0.10771092027425766,
      "learning_rate": 5.6367935851112605e-05,
      "loss": 0.4572,
      "num_input_tokens_seen": 21552832,
      "step": 32920
    },
    {
      "epoch": 17.2562893081761,
      "grad_norm": 0.22892649471759796,
      "learning_rate": 5.626249829939023e-05,
      "loss": 0.3646,
      "num_input_tokens_seen": 21555776,
      "step": 32925
    },
    {
      "epoch": 17.258909853249477,
      "grad_norm": 0.29455363750457764,
      "learning_rate": 5.6157153572490795e-05,
      "loss": 0.4214,
      "num_input_tokens_seen": 21558624,
      "step": 32930
    },
    {
      "epoch": 17.26153039832285,
      "grad_norm": 0.08958909660577774,
      "learning_rate": 5.6051901692451115e-05,
      "loss": 0.2628,
      "num_input_tokens_seen": 21562432,
      "step": 32935
    },
    {
      "epoch": 17.264150943396228,
      "grad_norm": 0.14973708987236023,
      "learning_rate": 5.5946742681288744e-05,
      "loss": 0.3868,
      "num_input_tokens_seen": 21565856,
      "step": 32940
    },
    {
      "epoch": 17.2667714884696,
      "grad_norm": 0.12963803112506866,
      "learning_rate": 5.5841676561001805e-05,
      "loss": 0.3503,
      "num_input_tokens_seen": 21569312,
      "step": 32945
    },
    {
      "epoch": 17.269392033542978,
      "grad_norm": 0.23802980780601501,
      "learning_rate": 5.573670335356901e-05,
      "loss": 0.4809,
      "num_input_tokens_seen": 21573152,
      "step": 32950
    },
    {
      "epoch": 17.27201257861635,
      "grad_norm": 0.17983049154281616,
      "learning_rate": 5.563182308094933e-05,
      "loss": 0.4998,
      "num_input_tokens_seen": 21575840,
      "step": 32955
    },
    {
      "epoch": 17.27463312368973,
      "grad_norm": 0.1088385209441185,
      "learning_rate": 5.552703576508272e-05,
      "loss": 0.3665,
      "num_input_tokens_seen": 21578304,
      "step": 32960
    },
    {
      "epoch": 17.2772536687631,
      "grad_norm": 0.2164267897605896,
      "learning_rate": 5.5422341427889324e-05,
      "loss": 0.5575,
      "num_input_tokens_seen": 21580832,
      "step": 32965
    },
    {
      "epoch": 17.27987421383648,
      "grad_norm": 0.1509718894958496,
      "learning_rate": 5.531774009127011e-05,
      "loss": 0.4885,
      "num_input_tokens_seen": 21583456,
      "step": 32970
    },
    {
      "epoch": 17.282494758909852,
      "grad_norm": 0.2411988526582718,
      "learning_rate": 5.521323177710647e-05,
      "loss": 0.3958,
      "num_input_tokens_seen": 21585856,
      "step": 32975
    },
    {
      "epoch": 17.28511530398323,
      "grad_norm": 0.13269191980361938,
      "learning_rate": 5.510881650726046e-05,
      "loss": 0.4512,
      "num_input_tokens_seen": 21588960,
      "step": 32980
    },
    {
      "epoch": 17.287735849056602,
      "grad_norm": 0.17594201862812042,
      "learning_rate": 5.50044943035744e-05,
      "loss": 0.4544,
      "num_input_tokens_seen": 21591904,
      "step": 32985
    },
    {
      "epoch": 17.29035639412998,
      "grad_norm": 0.14965695142745972,
      "learning_rate": 5.490026518787128e-05,
      "loss": 0.4408,
      "num_input_tokens_seen": 21594848,
      "step": 32990
    },
    {
      "epoch": 17.292976939203353,
      "grad_norm": 0.11929473280906677,
      "learning_rate": 5.47961291819547e-05,
      "loss": 0.3898,
      "num_input_tokens_seen": 21598112,
      "step": 32995
    },
    {
      "epoch": 17.29559748427673,
      "grad_norm": 0.1773218810558319,
      "learning_rate": 5.46920863076088e-05,
      "loss": 0.5118,
      "num_input_tokens_seen": 21601312,
      "step": 33000
    },
    {
      "epoch": 17.298218029350103,
      "grad_norm": 0.18306614458560944,
      "learning_rate": 5.4588136586598056e-05,
      "loss": 0.487,
      "num_input_tokens_seen": 21604160,
      "step": 33005
    },
    {
      "epoch": 17.30083857442348,
      "grad_norm": 0.12403605878353119,
      "learning_rate": 5.44842800406678e-05,
      "loss": 0.4097,
      "num_input_tokens_seen": 21607008,
      "step": 33010
    },
    {
      "epoch": 17.303459119496857,
      "grad_norm": 0.16276665031909943,
      "learning_rate": 5.438051669154326e-05,
      "loss": 0.3235,
      "num_input_tokens_seen": 21610144,
      "step": 33015
    },
    {
      "epoch": 17.30607966457023,
      "grad_norm": 0.12272278964519501,
      "learning_rate": 5.427684656093074e-05,
      "loss": 0.5851,
      "num_input_tokens_seen": 21613312,
      "step": 33020
    },
    {
      "epoch": 17.308700209643607,
      "grad_norm": 0.27162113785743713,
      "learning_rate": 5.417326967051683e-05,
      "loss": 0.4688,
      "num_input_tokens_seen": 21615936,
      "step": 33025
    },
    {
      "epoch": 17.31132075471698,
      "grad_norm": 0.14052866399288177,
      "learning_rate": 5.4069786041968663e-05,
      "loss": 0.5343,
      "num_input_tokens_seen": 21619200,
      "step": 33030
    },
    {
      "epoch": 17.313941299790358,
      "grad_norm": 0.15574952960014343,
      "learning_rate": 5.39663956969339e-05,
      "loss": 0.4133,
      "num_input_tokens_seen": 21621792,
      "step": 33035
    },
    {
      "epoch": 17.31656184486373,
      "grad_norm": 0.11669035255908966,
      "learning_rate": 5.3863098657040534e-05,
      "loss": 0.363,
      "num_input_tokens_seen": 21624448,
      "step": 33040
    },
    {
      "epoch": 17.319182389937108,
      "grad_norm": 0.18424470722675323,
      "learning_rate": 5.375989494389705e-05,
      "loss": 0.3448,
      "num_input_tokens_seen": 21628576,
      "step": 33045
    },
    {
      "epoch": 17.32180293501048,
      "grad_norm": 0.13971370458602905,
      "learning_rate": 5.365678457909257e-05,
      "loss": 0.4908,
      "num_input_tokens_seen": 21632128,
      "step": 33050
    },
    {
      "epoch": 17.32442348008386,
      "grad_norm": 0.13087041676044464,
      "learning_rate": 5.3553767584196555e-05,
      "loss": 0.4341,
      "num_input_tokens_seen": 21635616,
      "step": 33055
    },
    {
      "epoch": 17.32704402515723,
      "grad_norm": 0.15628592669963837,
      "learning_rate": 5.3450843980759166e-05,
      "loss": 0.3061,
      "num_input_tokens_seen": 21638592,
      "step": 33060
    },
    {
      "epoch": 17.32966457023061,
      "grad_norm": 0.16602252423763275,
      "learning_rate": 5.3348013790310736e-05,
      "loss": 0.3759,
      "num_input_tokens_seen": 21641920,
      "step": 33065
    },
    {
      "epoch": 17.332285115303982,
      "grad_norm": 0.1407865732908249,
      "learning_rate": 5.324527703436199e-05,
      "loss": 0.5642,
      "num_input_tokens_seen": 21645024,
      "step": 33070
    },
    {
      "epoch": 17.33490566037736,
      "grad_norm": 0.18977823853492737,
      "learning_rate": 5.314263373440448e-05,
      "loss": 0.6318,
      "num_input_tokens_seen": 21647904,
      "step": 33075
    },
    {
      "epoch": 17.337526205450732,
      "grad_norm": 0.2085486352443695,
      "learning_rate": 5.304008391190995e-05,
      "loss": 0.5231,
      "num_input_tokens_seen": 21650528,
      "step": 33080
    },
    {
      "epoch": 17.34014675052411,
      "grad_norm": 0.1496834009885788,
      "learning_rate": 5.293762758833071e-05,
      "loss": 0.5525,
      "num_input_tokens_seen": 21653664,
      "step": 33085
    },
    {
      "epoch": 17.342767295597483,
      "grad_norm": 0.2937864363193512,
      "learning_rate": 5.283526478509953e-05,
      "loss": 0.5671,
      "num_input_tokens_seen": 21656640,
      "step": 33090
    },
    {
      "epoch": 17.34538784067086,
      "grad_norm": 0.24026912450790405,
      "learning_rate": 5.273299552362942e-05,
      "loss": 0.3928,
      "num_input_tokens_seen": 21659616,
      "step": 33095
    },
    {
      "epoch": 17.348008385744233,
      "grad_norm": 0.14885467290878296,
      "learning_rate": 5.263081982531381e-05,
      "loss": 0.4893,
      "num_input_tokens_seen": 21663040,
      "step": 33100
    },
    {
      "epoch": 17.35062893081761,
      "grad_norm": 0.18586885929107666,
      "learning_rate": 5.2528737711526885e-05,
      "loss": 0.4973,
      "num_input_tokens_seen": 21666688,
      "step": 33105
    },
    {
      "epoch": 17.353249475890987,
      "grad_norm": 0.22336547076702118,
      "learning_rate": 5.2426749203623005e-05,
      "loss": 0.5317,
      "num_input_tokens_seen": 21669440,
      "step": 33110
    },
    {
      "epoch": 17.35587002096436,
      "grad_norm": 0.1314554661512375,
      "learning_rate": 5.23248543229371e-05,
      "loss": 0.4155,
      "num_input_tokens_seen": 21672448,
      "step": 33115
    },
    {
      "epoch": 17.358490566037737,
      "grad_norm": 0.17902392148971558,
      "learning_rate": 5.222305309078429e-05,
      "loss": 0.5035,
      "num_input_tokens_seen": 21675488,
      "step": 33120
    },
    {
      "epoch": 17.36111111111111,
      "grad_norm": 0.14110128581523895,
      "learning_rate": 5.2121345528460205e-05,
      "loss": 0.4323,
      "num_input_tokens_seen": 21678272,
      "step": 33125
    },
    {
      "epoch": 17.363731656184488,
      "grad_norm": 0.20475777983665466,
      "learning_rate": 5.201973165724094e-05,
      "loss": 0.3854,
      "num_input_tokens_seen": 21681088,
      "step": 33130
    },
    {
      "epoch": 17.36635220125786,
      "grad_norm": 0.15435421466827393,
      "learning_rate": 5.1918211498382996e-05,
      "loss": 0.4285,
      "num_input_tokens_seen": 21683872,
      "step": 33135
    },
    {
      "epoch": 17.368972746331238,
      "grad_norm": 0.20389220118522644,
      "learning_rate": 5.181678507312332e-05,
      "loss": 0.5152,
      "num_input_tokens_seen": 21687104,
      "step": 33140
    },
    {
      "epoch": 17.37159329140461,
      "grad_norm": 0.09536798298358917,
      "learning_rate": 5.171545240267894e-05,
      "loss": 0.395,
      "num_input_tokens_seen": 21689952,
      "step": 33145
    },
    {
      "epoch": 17.37421383647799,
      "grad_norm": 0.13858197629451752,
      "learning_rate": 5.161421350824774e-05,
      "loss": 0.5429,
      "num_input_tokens_seen": 21693088,
      "step": 33150
    },
    {
      "epoch": 17.37683438155136,
      "grad_norm": 0.14668376743793488,
      "learning_rate": 5.151306841100756e-05,
      "loss": 0.4331,
      "num_input_tokens_seen": 21695872,
      "step": 33155
    },
    {
      "epoch": 17.37945492662474,
      "grad_norm": 0.1734030395746231,
      "learning_rate": 5.141201713211679e-05,
      "loss": 0.5606,
      "num_input_tokens_seen": 21698272,
      "step": 33160
    },
    {
      "epoch": 17.382075471698112,
      "grad_norm": 0.18023771047592163,
      "learning_rate": 5.1311059692714324e-05,
      "loss": 0.4278,
      "num_input_tokens_seen": 21701984,
      "step": 33165
    },
    {
      "epoch": 17.38469601677149,
      "grad_norm": 0.09926939010620117,
      "learning_rate": 5.1210196113919306e-05,
      "loss": 0.4406,
      "num_input_tokens_seen": 21705856,
      "step": 33170
    },
    {
      "epoch": 17.387316561844862,
      "grad_norm": 0.23615480959415436,
      "learning_rate": 5.110942641683114e-05,
      "loss": 0.3298,
      "num_input_tokens_seen": 21708160,
      "step": 33175
    },
    {
      "epoch": 17.38993710691824,
      "grad_norm": 0.18983742594718933,
      "learning_rate": 5.10087506225298e-05,
      "loss": 0.4779,
      "num_input_tokens_seen": 21713760,
      "step": 33180
    },
    {
      "epoch": 17.392557651991613,
      "grad_norm": 0.19597618281841278,
      "learning_rate": 5.090816875207543e-05,
      "loss": 0.4872,
      "num_input_tokens_seen": 21716768,
      "step": 33185
    },
    {
      "epoch": 17.39517819706499,
      "grad_norm": 0.12694385647773743,
      "learning_rate": 5.0807680826508604e-05,
      "loss": 0.4786,
      "num_input_tokens_seen": 21720128,
      "step": 33190
    },
    {
      "epoch": 17.397798742138363,
      "grad_norm": 0.14767533540725708,
      "learning_rate": 5.070728686685039e-05,
      "loss": 0.4197,
      "num_input_tokens_seen": 21724384,
      "step": 33195
    },
    {
      "epoch": 17.40041928721174,
      "grad_norm": 0.22940698266029358,
      "learning_rate": 5.0606986894101925e-05,
      "loss": 0.4192,
      "num_input_tokens_seen": 21727136,
      "step": 33200
    },
    {
      "epoch": 17.403039832285117,
      "grad_norm": 0.1135186105966568,
      "learning_rate": 5.0506780929244875e-05,
      "loss": 0.3747,
      "num_input_tokens_seen": 21731136,
      "step": 33205
    },
    {
      "epoch": 17.40566037735849,
      "grad_norm": 0.20827753841876984,
      "learning_rate": 5.040666899324109e-05,
      "loss": 0.4264,
      "num_input_tokens_seen": 21734272,
      "step": 33210
    },
    {
      "epoch": 17.408280922431867,
      "grad_norm": 0.14835545420646667,
      "learning_rate": 5.0306651107032916e-05,
      "loss": 0.4092,
      "num_input_tokens_seen": 21738112,
      "step": 33215
    },
    {
      "epoch": 17.41090146750524,
      "grad_norm": 0.12938036024570465,
      "learning_rate": 5.020672729154308e-05,
      "loss": 0.5617,
      "num_input_tokens_seen": 21740896,
      "step": 33220
    },
    {
      "epoch": 17.413522012578618,
      "grad_norm": 0.23130346834659576,
      "learning_rate": 5.010689756767428e-05,
      "loss": 0.4751,
      "num_input_tokens_seen": 21744448,
      "step": 33225
    },
    {
      "epoch": 17.41614255765199,
      "grad_norm": 0.16514647006988525,
      "learning_rate": 5.000716195630983e-05,
      "loss": 0.3784,
      "num_input_tokens_seen": 21747200,
      "step": 33230
    },
    {
      "epoch": 17.418763102725368,
      "grad_norm": 0.14594264328479767,
      "learning_rate": 4.990752047831343e-05,
      "loss": 0.4745,
      "num_input_tokens_seen": 21750432,
      "step": 33235
    },
    {
      "epoch": 17.42138364779874,
      "grad_norm": 0.12687669694423676,
      "learning_rate": 4.980797315452873e-05,
      "loss": 0.5018,
      "num_input_tokens_seen": 21753856,
      "step": 33240
    },
    {
      "epoch": 17.42400419287212,
      "grad_norm": 0.24902649223804474,
      "learning_rate": 4.9708520005779965e-05,
      "loss": 0.3667,
      "num_input_tokens_seen": 21756960,
      "step": 33245
    },
    {
      "epoch": 17.42662473794549,
      "grad_norm": 0.15706659853458405,
      "learning_rate": 4.960916105287172e-05,
      "loss": 0.3843,
      "num_input_tokens_seen": 21759968,
      "step": 33250
    },
    {
      "epoch": 17.42924528301887,
      "grad_norm": 0.09969537705183029,
      "learning_rate": 4.950989631658859e-05,
      "loss": 0.4232,
      "num_input_tokens_seen": 21762592,
      "step": 33255
    },
    {
      "epoch": 17.431865828092242,
      "grad_norm": 0.32346609234809875,
      "learning_rate": 4.941072581769562e-05,
      "loss": 0.3103,
      "num_input_tokens_seen": 21765440,
      "step": 33260
    },
    {
      "epoch": 17.43448637316562,
      "grad_norm": 0.2116907387971878,
      "learning_rate": 4.931164957693834e-05,
      "loss": 0.4868,
      "num_input_tokens_seen": 21768736,
      "step": 33265
    },
    {
      "epoch": 17.437106918238992,
      "grad_norm": 0.14717161655426025,
      "learning_rate": 4.921266761504217e-05,
      "loss": 0.4173,
      "num_input_tokens_seen": 21771392,
      "step": 33270
    },
    {
      "epoch": 17.43972746331237,
      "grad_norm": 0.15501545369625092,
      "learning_rate": 4.9113779952713155e-05,
      "loss": 0.4274,
      "num_input_tokens_seen": 21774176,
      "step": 33275
    },
    {
      "epoch": 17.442348008385743,
      "grad_norm": 0.14989487826824188,
      "learning_rate": 4.90149866106373e-05,
      "loss": 0.3627,
      "num_input_tokens_seen": 21776736,
      "step": 33280
    },
    {
      "epoch": 17.44496855345912,
      "grad_norm": 0.1631963551044464,
      "learning_rate": 4.8916287609481137e-05,
      "loss": 0.4249,
      "num_input_tokens_seen": 21780480,
      "step": 33285
    },
    {
      "epoch": 17.447589098532493,
      "grad_norm": 0.11713957786560059,
      "learning_rate": 4.8817682969891366e-05,
      "loss": 0.4457,
      "num_input_tokens_seen": 21784032,
      "step": 33290
    },
    {
      "epoch": 17.45020964360587,
      "grad_norm": 0.16773949563503265,
      "learning_rate": 4.8719172712495095e-05,
      "loss": 0.3976,
      "num_input_tokens_seen": 21787584,
      "step": 33295
    },
    {
      "epoch": 17.452830188679247,
      "grad_norm": 0.23539622128009796,
      "learning_rate": 4.862075685789935e-05,
      "loss": 0.4123,
      "num_input_tokens_seen": 21790336,
      "step": 33300
    },
    {
      "epoch": 17.45545073375262,
      "grad_norm": 0.2608729302883148,
      "learning_rate": 4.8522435426691604e-05,
      "loss": 0.5376,
      "num_input_tokens_seen": 21793216,
      "step": 33305
    },
    {
      "epoch": 17.458071278825997,
      "grad_norm": 0.17149047553539276,
      "learning_rate": 4.842420843943962e-05,
      "loss": 0.4707,
      "num_input_tokens_seen": 21796160,
      "step": 33310
    },
    {
      "epoch": 17.46069182389937,
      "grad_norm": 0.17243912816047668,
      "learning_rate": 4.8326075916691415e-05,
      "loss": 0.4533,
      "num_input_tokens_seen": 21798656,
      "step": 33315
    },
    {
      "epoch": 17.463312368972748,
      "grad_norm": 0.2635577619075775,
      "learning_rate": 4.822803787897523e-05,
      "loss": 0.3369,
      "num_input_tokens_seen": 21802912,
      "step": 33320
    },
    {
      "epoch": 17.46593291404612,
      "grad_norm": 0.31594592332839966,
      "learning_rate": 4.813009434679932e-05,
      "loss": 0.3873,
      "num_input_tokens_seen": 21806304,
      "step": 33325
    },
    {
      "epoch": 17.468553459119498,
      "grad_norm": 0.12264177203178406,
      "learning_rate": 4.803224534065259e-05,
      "loss": 0.5439,
      "num_input_tokens_seen": 21809760,
      "step": 33330
    },
    {
      "epoch": 17.47117400419287,
      "grad_norm": 0.11954499036073685,
      "learning_rate": 4.793449088100371e-05,
      "loss": 0.3444,
      "num_input_tokens_seen": 21812576,
      "step": 33335
    },
    {
      "epoch": 17.47379454926625,
      "grad_norm": 0.17718034982681274,
      "learning_rate": 4.783683098830188e-05,
      "loss": 0.3653,
      "num_input_tokens_seen": 21815392,
      "step": 33340
    },
    {
      "epoch": 17.47641509433962,
      "grad_norm": 0.22153706848621368,
      "learning_rate": 4.7739265682976485e-05,
      "loss": 0.3948,
      "num_input_tokens_seen": 21817920,
      "step": 33345
    },
    {
      "epoch": 17.479035639413,
      "grad_norm": 0.19517266750335693,
      "learning_rate": 4.764179498543714e-05,
      "loss": 0.4204,
      "num_input_tokens_seen": 21820704,
      "step": 33350
    },
    {
      "epoch": 17.481656184486372,
      "grad_norm": 0.1801280677318573,
      "learning_rate": 4.754441891607347e-05,
      "loss": 0.3579,
      "num_input_tokens_seen": 21823872,
      "step": 33355
    },
    {
      "epoch": 17.48427672955975,
      "grad_norm": 0.2227892428636551,
      "learning_rate": 4.7447137495255424e-05,
      "loss": 0.4175,
      "num_input_tokens_seen": 21827584,
      "step": 33360
    },
    {
      "epoch": 17.486897274633122,
      "grad_norm": 0.17113833129405975,
      "learning_rate": 4.7349950743333206e-05,
      "loss": 0.382,
      "num_input_tokens_seen": 21830624,
      "step": 33365
    },
    {
      "epoch": 17.4895178197065,
      "grad_norm": 0.08753282576799393,
      "learning_rate": 4.725285868063722e-05,
      "loss": 0.4214,
      "num_input_tokens_seen": 21834208,
      "step": 33370
    },
    {
      "epoch": 17.492138364779873,
      "grad_norm": 0.1557646542787552,
      "learning_rate": 4.715586132747801e-05,
      "loss": 0.611,
      "num_input_tokens_seen": 21837408,
      "step": 33375
    },
    {
      "epoch": 17.49475890985325,
      "grad_norm": 0.13974760472774506,
      "learning_rate": 4.705895870414634e-05,
      "loss": 0.3475,
      "num_input_tokens_seen": 21840160,
      "step": 33380
    },
    {
      "epoch": 17.497379454926623,
      "grad_norm": 0.4028610587120056,
      "learning_rate": 4.696215083091299e-05,
      "loss": 0.4038,
      "num_input_tokens_seen": 21844288,
      "step": 33385
    },
    {
      "epoch": 17.5,
      "grad_norm": 0.3508917987346649,
      "learning_rate": 4.686543772802915e-05,
      "loss": 0.6028,
      "num_input_tokens_seen": 21846880,
      "step": 33390
    },
    {
      "epoch": 17.502620545073377,
      "grad_norm": 0.15375588834285736,
      "learning_rate": 4.6768819415726085e-05,
      "loss": 0.4508,
      "num_input_tokens_seen": 21850048,
      "step": 33395
    },
    {
      "epoch": 17.50524109014675,
      "grad_norm": 0.13566629588603973,
      "learning_rate": 4.667229591421529e-05,
      "loss": 0.345,
      "num_input_tokens_seen": 21853088,
      "step": 33400
    },
    {
      "epoch": 17.507861635220127,
      "grad_norm": 0.18489904701709747,
      "learning_rate": 4.657586724368845e-05,
      "loss": 0.3821,
      "num_input_tokens_seen": 21856000,
      "step": 33405
    },
    {
      "epoch": 17.5104821802935,
      "grad_norm": 0.16207920014858246,
      "learning_rate": 4.647953342431726e-05,
      "loss": 0.36,
      "num_input_tokens_seen": 21859392,
      "step": 33410
    },
    {
      "epoch": 17.513102725366878,
      "grad_norm": 0.06750793755054474,
      "learning_rate": 4.63832944762535e-05,
      "loss": 0.3849,
      "num_input_tokens_seen": 21862912,
      "step": 33415
    },
    {
      "epoch": 17.51572327044025,
      "grad_norm": 0.13444577157497406,
      "learning_rate": 4.628715041962944e-05,
      "loss": 0.4857,
      "num_input_tokens_seen": 21866016,
      "step": 33420
    },
    {
      "epoch": 17.518343815513628,
      "grad_norm": 0.12439942359924316,
      "learning_rate": 4.619110127455728e-05,
      "loss": 0.4892,
      "num_input_tokens_seen": 21869248,
      "step": 33425
    },
    {
      "epoch": 17.520964360587,
      "grad_norm": 0.22306695580482483,
      "learning_rate": 4.6095147061129494e-05,
      "loss": 0.4303,
      "num_input_tokens_seen": 21871968,
      "step": 33430
    },
    {
      "epoch": 17.52358490566038,
      "grad_norm": 0.12281853705644608,
      "learning_rate": 4.599928779941853e-05,
      "loss": 0.5255,
      "num_input_tokens_seen": 21875456,
      "step": 33435
    },
    {
      "epoch": 17.52620545073375,
      "grad_norm": 0.31221845746040344,
      "learning_rate": 4.590352350947691e-05,
      "loss": 0.3343,
      "num_input_tokens_seen": 21877792,
      "step": 33440
    },
    {
      "epoch": 17.52882599580713,
      "grad_norm": 0.18415753543376923,
      "learning_rate": 4.580785421133759e-05,
      "loss": 0.4864,
      "num_input_tokens_seen": 21881440,
      "step": 33445
    },
    {
      "epoch": 17.531446540880502,
      "grad_norm": 0.18145664036273956,
      "learning_rate": 4.571227992501348e-05,
      "loss": 0.3509,
      "num_input_tokens_seen": 21884256,
      "step": 33450
    },
    {
      "epoch": 17.53406708595388,
      "grad_norm": 0.18797756731510162,
      "learning_rate": 4.561680067049773e-05,
      "loss": 0.4485,
      "num_input_tokens_seen": 21887136,
      "step": 33455
    },
    {
      "epoch": 17.536687631027252,
      "grad_norm": 0.18457254767417908,
      "learning_rate": 4.552141646776331e-05,
      "loss": 0.4157,
      "num_input_tokens_seen": 21889568,
      "step": 33460
    },
    {
      "epoch": 17.53930817610063,
      "grad_norm": 0.12680858373641968,
      "learning_rate": 4.542612733676365e-05,
      "loss": 0.5764,
      "num_input_tokens_seen": 21892864,
      "step": 33465
    },
    {
      "epoch": 17.541928721174003,
      "grad_norm": 0.2580871284008026,
      "learning_rate": 4.533093329743204e-05,
      "loss": 0.4804,
      "num_input_tokens_seen": 21895968,
      "step": 33470
    },
    {
      "epoch": 17.54454926624738,
      "grad_norm": 0.134779155254364,
      "learning_rate": 4.523583436968204e-05,
      "loss": 0.507,
      "num_input_tokens_seen": 21898912,
      "step": 33475
    },
    {
      "epoch": 17.547169811320753,
      "grad_norm": 0.12127380818128586,
      "learning_rate": 4.514083057340723e-05,
      "loss": 0.3715,
      "num_input_tokens_seen": 21903456,
      "step": 33480
    },
    {
      "epoch": 17.54979035639413,
      "grad_norm": 0.1384270191192627,
      "learning_rate": 4.504592192848151e-05,
      "loss": 0.4512,
      "num_input_tokens_seen": 21906336,
      "step": 33485
    },
    {
      "epoch": 17.552410901467507,
      "grad_norm": 0.17667709290981293,
      "learning_rate": 4.495110845475847e-05,
      "loss": 0.3704,
      "num_input_tokens_seen": 21910624,
      "step": 33490
    },
    {
      "epoch": 17.55503144654088,
      "grad_norm": 0.214529886841774,
      "learning_rate": 4.4856390172072045e-05,
      "loss": 0.3858,
      "num_input_tokens_seen": 21914816,
      "step": 33495
    },
    {
      "epoch": 17.557651991614257,
      "grad_norm": 0.10707852989435196,
      "learning_rate": 4.476176710023622e-05,
      "loss": 0.3476,
      "num_input_tokens_seen": 21919456,
      "step": 33500
    },
    {
      "epoch": 17.56027253668763,
      "grad_norm": 0.10695292055606842,
      "learning_rate": 4.4667239259045035e-05,
      "loss": 0.4846,
      "num_input_tokens_seen": 21922880,
      "step": 33505
    },
    {
      "epoch": 17.562893081761008,
      "grad_norm": 0.15593425929546356,
      "learning_rate": 4.457280666827285e-05,
      "loss": 0.4196,
      "num_input_tokens_seen": 21926240,
      "step": 33510
    },
    {
      "epoch": 17.56551362683438,
      "grad_norm": 0.33237674832344055,
      "learning_rate": 4.447846934767358e-05,
      "loss": 0.4297,
      "num_input_tokens_seen": 21929024,
      "step": 33515
    },
    {
      "epoch": 17.568134171907758,
      "grad_norm": 0.16103976964950562,
      "learning_rate": 4.4384227316981774e-05,
      "loss": 0.3465,
      "num_input_tokens_seen": 21931904,
      "step": 33520
    },
    {
      "epoch": 17.57075471698113,
      "grad_norm": 0.15366573631763458,
      "learning_rate": 4.4290080595911555e-05,
      "loss": 0.6446,
      "num_input_tokens_seen": 21934784,
      "step": 33525
    },
    {
      "epoch": 17.57337526205451,
      "grad_norm": 0.15984869003295898,
      "learning_rate": 4.419602920415749e-05,
      "loss": 0.3561,
      "num_input_tokens_seen": 21937376,
      "step": 33530
    },
    {
      "epoch": 17.57599580712788,
      "grad_norm": 0.11858490109443665,
      "learning_rate": 4.410207316139408e-05,
      "loss": 0.4819,
      "num_input_tokens_seen": 21941568,
      "step": 33535
    },
    {
      "epoch": 17.57861635220126,
      "grad_norm": 0.1392141729593277,
      "learning_rate": 4.400821248727577e-05,
      "loss": 0.3317,
      "num_input_tokens_seen": 21944800,
      "step": 33540
    },
    {
      "epoch": 17.581236897274632,
      "grad_norm": 0.19424985349178314,
      "learning_rate": 4.391444720143717e-05,
      "loss": 0.4519,
      "num_input_tokens_seen": 21947680,
      "step": 33545
    },
    {
      "epoch": 17.58385744234801,
      "grad_norm": 0.11061878502368927,
      "learning_rate": 4.382077732349299e-05,
      "loss": 0.4827,
      "num_input_tokens_seen": 21951392,
      "step": 33550
    },
    {
      "epoch": 17.586477987421382,
      "grad_norm": 0.1929764598608017,
      "learning_rate": 4.372720287303772e-05,
      "loss": 0.5229,
      "num_input_tokens_seen": 21954464,
      "step": 33555
    },
    {
      "epoch": 17.58909853249476,
      "grad_norm": 0.24616506695747375,
      "learning_rate": 4.3633723869646204e-05,
      "loss": 0.4042,
      "num_input_tokens_seen": 21957504,
      "step": 33560
    },
    {
      "epoch": 17.591719077568133,
      "grad_norm": 0.14188072085380554,
      "learning_rate": 4.3540340332873184e-05,
      "loss": 0.4365,
      "num_input_tokens_seen": 21960320,
      "step": 33565
    },
    {
      "epoch": 17.59433962264151,
      "grad_norm": 0.15576452016830444,
      "learning_rate": 4.3447052282253375e-05,
      "loss": 0.4675,
      "num_input_tokens_seen": 21963648,
      "step": 33570
    },
    {
      "epoch": 17.596960167714883,
      "grad_norm": 0.14196538925170898,
      "learning_rate": 4.335385973730166e-05,
      "loss": 0.4478,
      "num_input_tokens_seen": 21967264,
      "step": 33575
    },
    {
      "epoch": 17.59958071278826,
      "grad_norm": 0.11765529960393906,
      "learning_rate": 4.3260762717512726e-05,
      "loss": 0.4287,
      "num_input_tokens_seen": 21970464,
      "step": 33580
    },
    {
      "epoch": 17.602201257861637,
      "grad_norm": 0.21394166350364685,
      "learning_rate": 4.316776124236144e-05,
      "loss": 0.4372,
      "num_input_tokens_seen": 21973536,
      "step": 33585
    },
    {
      "epoch": 17.60482180293501,
      "grad_norm": 0.09527140110731125,
      "learning_rate": 4.307485533130279e-05,
      "loss": 0.3967,
      "num_input_tokens_seen": 21976864,
      "step": 33590
    },
    {
      "epoch": 17.607442348008387,
      "grad_norm": 0.2146044820547104,
      "learning_rate": 4.298204500377145e-05,
      "loss": 0.4693,
      "num_input_tokens_seen": 21980512,
      "step": 33595
    },
    {
      "epoch": 17.61006289308176,
      "grad_norm": 0.2975192368030548,
      "learning_rate": 4.288933027918235e-05,
      "loss": 0.5179,
      "num_input_tokens_seen": 21983744,
      "step": 33600
    },
    {
      "epoch": 17.612683438155138,
      "grad_norm": 0.1604420691728592,
      "learning_rate": 4.279671117693046e-05,
      "loss": 0.3992,
      "num_input_tokens_seen": 21986336,
      "step": 33605
    },
    {
      "epoch": 17.61530398322851,
      "grad_norm": 0.11550354957580566,
      "learning_rate": 4.270418771639045e-05,
      "loss": 0.3521,
      "num_input_tokens_seen": 21989280,
      "step": 33610
    },
    {
      "epoch": 17.617924528301888,
      "grad_norm": 0.10754144191741943,
      "learning_rate": 4.2611759916917345e-05,
      "loss": 0.4253,
      "num_input_tokens_seen": 21993312,
      "step": 33615
    },
    {
      "epoch": 17.62054507337526,
      "grad_norm": 0.1473604440689087,
      "learning_rate": 4.251942779784579e-05,
      "loss": 0.4635,
      "num_input_tokens_seen": 21996160,
      "step": 33620
    },
    {
      "epoch": 17.62316561844864,
      "grad_norm": 0.09371788799762726,
      "learning_rate": 4.242719137849077e-05,
      "loss": 0.3254,
      "num_input_tokens_seen": 21999264,
      "step": 33625
    },
    {
      "epoch": 17.62578616352201,
      "grad_norm": 0.15385720133781433,
      "learning_rate": 4.233505067814702e-05,
      "loss": 0.4773,
      "num_input_tokens_seen": 22001984,
      "step": 33630
    },
    {
      "epoch": 17.62840670859539,
      "grad_norm": 0.14009304344654083,
      "learning_rate": 4.224300571608947e-05,
      "loss": 0.446,
      "num_input_tokens_seen": 22007296,
      "step": 33635
    },
    {
      "epoch": 17.631027253668762,
      "grad_norm": 0.22455352544784546,
      "learning_rate": 4.215105651157264e-05,
      "loss": 0.3237,
      "num_input_tokens_seen": 22010272,
      "step": 33640
    },
    {
      "epoch": 17.63364779874214,
      "grad_norm": 0.15273989737033844,
      "learning_rate": 4.2059203083831434e-05,
      "loss": 0.4672,
      "num_input_tokens_seen": 22013984,
      "step": 33645
    },
    {
      "epoch": 17.636268343815512,
      "grad_norm": 0.13527971506118774,
      "learning_rate": 4.196744545208042e-05,
      "loss": 0.4145,
      "num_input_tokens_seen": 22017216,
      "step": 33650
    },
    {
      "epoch": 17.63888888888889,
      "grad_norm": 0.1929239183664322,
      "learning_rate": 4.187578363551431e-05,
      "loss": 0.4421,
      "num_input_tokens_seen": 22019872,
      "step": 33655
    },
    {
      "epoch": 17.641509433962263,
      "grad_norm": 0.12863896787166595,
      "learning_rate": 4.17842176533077e-05,
      "loss": 0.3782,
      "num_input_tokens_seen": 22022432,
      "step": 33660
    },
    {
      "epoch": 17.64412997903564,
      "grad_norm": 0.23504285514354706,
      "learning_rate": 4.1692747524615274e-05,
      "loss": 0.4796,
      "num_input_tokens_seen": 22025120,
      "step": 33665
    },
    {
      "epoch": 17.646750524109013,
      "grad_norm": 0.14947623014450073,
      "learning_rate": 4.160137326857138e-05,
      "loss": 0.4195,
      "num_input_tokens_seen": 22028896,
      "step": 33670
    },
    {
      "epoch": 17.64937106918239,
      "grad_norm": 0.29313263297080994,
      "learning_rate": 4.151009490429042e-05,
      "loss": 0.4174,
      "num_input_tokens_seen": 22031168,
      "step": 33675
    },
    {
      "epoch": 17.651991614255767,
      "grad_norm": 0.15285411477088928,
      "learning_rate": 4.141891245086687e-05,
      "loss": 0.3992,
      "num_input_tokens_seen": 22034400,
      "step": 33680
    },
    {
      "epoch": 17.65461215932914,
      "grad_norm": 0.1202169880270958,
      "learning_rate": 4.132782592737511e-05,
      "loss": 0.3221,
      "num_input_tokens_seen": 22037984,
      "step": 33685
    },
    {
      "epoch": 17.657232704402517,
      "grad_norm": 0.1310594379901886,
      "learning_rate": 4.123683535286943e-05,
      "loss": 0.4149,
      "num_input_tokens_seen": 22040992,
      "step": 33690
    },
    {
      "epoch": 17.65985324947589,
      "grad_norm": 0.1897011697292328,
      "learning_rate": 4.114594074638395e-05,
      "loss": 0.455,
      "num_input_tokens_seen": 22043616,
      "step": 33695
    },
    {
      "epoch": 17.662473794549268,
      "grad_norm": 0.09229737520217896,
      "learning_rate": 4.105514212693268e-05,
      "loss": 0.3495,
      "num_input_tokens_seen": 22045920,
      "step": 33700
    },
    {
      "epoch": 17.66509433962264,
      "grad_norm": 0.09621864557266235,
      "learning_rate": 4.096443951350976e-05,
      "loss": 0.5934,
      "num_input_tokens_seen": 22050144,
      "step": 33705
    },
    {
      "epoch": 17.667714884696018,
      "grad_norm": 0.12811455130577087,
      "learning_rate": 4.0873832925089116e-05,
      "loss": 0.3473,
      "num_input_tokens_seen": 22054432,
      "step": 33710
    },
    {
      "epoch": 17.67033542976939,
      "grad_norm": 0.1505790799856186,
      "learning_rate": 4.0783322380624656e-05,
      "loss": 0.4652,
      "num_input_tokens_seen": 22058272,
      "step": 33715
    },
    {
      "epoch": 17.67295597484277,
      "grad_norm": 0.1138925701379776,
      "learning_rate": 4.069290789905023e-05,
      "loss": 0.4737,
      "num_input_tokens_seen": 22061088,
      "step": 33720
    },
    {
      "epoch": 17.67557651991614,
      "grad_norm": 0.19640259444713593,
      "learning_rate": 4.060258949927942e-05,
      "loss": 0.3528,
      "num_input_tokens_seen": 22064160,
      "step": 33725
    },
    {
      "epoch": 17.67819706498952,
      "grad_norm": 0.10902781039476395,
      "learning_rate": 4.051236720020568e-05,
      "loss": 0.4076,
      "num_input_tokens_seen": 22066720,
      "step": 33730
    },
    {
      "epoch": 17.680817610062892,
      "grad_norm": 0.10417059808969498,
      "learning_rate": 4.042224102070263e-05,
      "loss": 0.5094,
      "num_input_tokens_seen": 22069952,
      "step": 33735
    },
    {
      "epoch": 17.68343815513627,
      "grad_norm": 0.18993660807609558,
      "learning_rate": 4.033221097962364e-05,
      "loss": 0.4022,
      "num_input_tokens_seen": 22074144,
      "step": 33740
    },
    {
      "epoch": 17.686058700209642,
      "grad_norm": 0.09015824645757675,
      "learning_rate": 4.0242277095802025e-05,
      "loss": 0.3443,
      "num_input_tokens_seen": 22077632,
      "step": 33745
    },
    {
      "epoch": 17.68867924528302,
      "grad_norm": 0.3889921307563782,
      "learning_rate": 4.015243938805086e-05,
      "loss": 0.3832,
      "num_input_tokens_seen": 22081536,
      "step": 33750
    },
    {
      "epoch": 17.691299790356393,
      "grad_norm": 0.1171707883477211,
      "learning_rate": 4.006269787516304e-05,
      "loss": 0.5163,
      "num_input_tokens_seen": 22085600,
      "step": 33755
    },
    {
      "epoch": 17.69392033542977,
      "grad_norm": 0.24191758036613464,
      "learning_rate": 3.9973052575911606e-05,
      "loss": 0.4703,
      "num_input_tokens_seen": 22089088,
      "step": 33760
    },
    {
      "epoch": 17.696540880503143,
      "grad_norm": 0.1470121443271637,
      "learning_rate": 3.988350350904929e-05,
      "loss": 0.3623,
      "num_input_tokens_seen": 22091584,
      "step": 33765
    },
    {
      "epoch": 17.69916142557652,
      "grad_norm": 0.1867000162601471,
      "learning_rate": 3.979405069330882e-05,
      "loss": 0.3002,
      "num_input_tokens_seen": 22094496,
      "step": 33770
    },
    {
      "epoch": 17.701781970649897,
      "grad_norm": 0.131379172205925,
      "learning_rate": 3.970469414740269e-05,
      "loss": 0.3956,
      "num_input_tokens_seen": 22097728,
      "step": 33775
    },
    {
      "epoch": 17.70440251572327,
      "grad_norm": 0.13365896046161652,
      "learning_rate": 3.961543389002309e-05,
      "loss": 0.593,
      "num_input_tokens_seen": 22101696,
      "step": 33780
    },
    {
      "epoch": 17.707023060796647,
      "grad_norm": 0.16684703528881073,
      "learning_rate": 3.952626993984243e-05,
      "loss": 0.5041,
      "num_input_tokens_seen": 22104256,
      "step": 33785
    },
    {
      "epoch": 17.70964360587002,
      "grad_norm": 0.18112191557884216,
      "learning_rate": 3.943720231551268e-05,
      "loss": 0.4525,
      "num_input_tokens_seen": 22107968,
      "step": 33790
    },
    {
      "epoch": 17.712264150943398,
      "grad_norm": 0.14597047865390778,
      "learning_rate": 3.934823103566587e-05,
      "loss": 0.4577,
      "num_input_tokens_seen": 22110464,
      "step": 33795
    },
    {
      "epoch": 17.71488469601677,
      "grad_norm": 0.1795346438884735,
      "learning_rate": 3.925935611891379e-05,
      "loss": 0.3847,
      "num_input_tokens_seen": 22113344,
      "step": 33800
    },
    {
      "epoch": 17.717505241090148,
      "grad_norm": 0.18819765746593475,
      "learning_rate": 3.917057758384801e-05,
      "loss": 0.3215,
      "num_input_tokens_seen": 22116640,
      "step": 33805
    },
    {
      "epoch": 17.72012578616352,
      "grad_norm": 0.16161754727363586,
      "learning_rate": 3.9081895449039896e-05,
      "loss": 0.3707,
      "num_input_tokens_seen": 22119808,
      "step": 33810
    },
    {
      "epoch": 17.7227463312369,
      "grad_norm": 0.19162414968013763,
      "learning_rate": 3.899330973304083e-05,
      "loss": 0.5316,
      "num_input_tokens_seen": 22123328,
      "step": 33815
    },
    {
      "epoch": 17.72536687631027,
      "grad_norm": 0.1521310657262802,
      "learning_rate": 3.8904820454381875e-05,
      "loss": 0.3979,
      "num_input_tokens_seen": 22127648,
      "step": 33820
    },
    {
      "epoch": 17.72798742138365,
      "grad_norm": 0.13283176720142365,
      "learning_rate": 3.881642763157417e-05,
      "loss": 0.4137,
      "num_input_tokens_seen": 22130816,
      "step": 33825
    },
    {
      "epoch": 17.730607966457022,
      "grad_norm": 0.15705467760562897,
      "learning_rate": 3.872813128310826e-05,
      "loss": 0.3775,
      "num_input_tokens_seen": 22133568,
      "step": 33830
    },
    {
      "epoch": 17.7332285115304,
      "grad_norm": 0.1513613611459732,
      "learning_rate": 3.8639931427454866e-05,
      "loss": 0.4613,
      "num_input_tokens_seen": 22137888,
      "step": 33835
    },
    {
      "epoch": 17.735849056603772,
      "grad_norm": 0.10399104654788971,
      "learning_rate": 3.855182808306429e-05,
      "loss": 0.3273,
      "num_input_tokens_seen": 22140448,
      "step": 33840
    },
    {
      "epoch": 17.73846960167715,
      "grad_norm": 0.21543137729167938,
      "learning_rate": 3.8463821268366784e-05,
      "loss": 0.4706,
      "num_input_tokens_seen": 22142400,
      "step": 33845
    },
    {
      "epoch": 17.741090146750523,
      "grad_norm": 0.220290869474411,
      "learning_rate": 3.837591100177246e-05,
      "loss": 0.4772,
      "num_input_tokens_seen": 22145824,
      "step": 33850
    },
    {
      "epoch": 17.7437106918239,
      "grad_norm": 0.138578400015831,
      "learning_rate": 3.828809730167099e-05,
      "loss": 0.5212,
      "num_input_tokens_seen": 22149536,
      "step": 33855
    },
    {
      "epoch": 17.746331236897273,
      "grad_norm": 0.173930361866951,
      "learning_rate": 3.820038018643218e-05,
      "loss": 0.4672,
      "num_input_tokens_seen": 22152384,
      "step": 33860
    },
    {
      "epoch": 17.74895178197065,
      "grad_norm": 0.1478307843208313,
      "learning_rate": 3.8112759674405254e-05,
      "loss": 0.4679,
      "num_input_tokens_seen": 22156480,
      "step": 33865
    },
    {
      "epoch": 17.751572327044027,
      "grad_norm": 0.11057648062705994,
      "learning_rate": 3.802523578391953e-05,
      "loss": 0.3393,
      "num_input_tokens_seen": 22160928,
      "step": 33870
    },
    {
      "epoch": 17.7541928721174,
      "grad_norm": 0.13439075648784637,
      "learning_rate": 3.793780853328399e-05,
      "loss": 0.4906,
      "num_input_tokens_seen": 22164576,
      "step": 33875
    },
    {
      "epoch": 17.756813417190777,
      "grad_norm": 0.11141348630189896,
      "learning_rate": 3.785047794078744e-05,
      "loss": 0.4047,
      "num_input_tokens_seen": 22168704,
      "step": 33880
    },
    {
      "epoch": 17.75943396226415,
      "grad_norm": 0.10798459500074387,
      "learning_rate": 3.776324402469844e-05,
      "loss": 0.4606,
      "num_input_tokens_seen": 22172896,
      "step": 33885
    },
    {
      "epoch": 17.762054507337528,
      "grad_norm": 0.19268657267093658,
      "learning_rate": 3.767610680326533e-05,
      "loss": 0.4489,
      "num_input_tokens_seen": 22175552,
      "step": 33890
    },
    {
      "epoch": 17.7646750524109,
      "grad_norm": 0.1469247043132782,
      "learning_rate": 3.7589066294716145e-05,
      "loss": 0.418,
      "num_input_tokens_seen": 22179200,
      "step": 33895
    },
    {
      "epoch": 17.767295597484278,
      "grad_norm": 0.10220997780561447,
      "learning_rate": 3.750212251725882e-05,
      "loss": 0.4291,
      "num_input_tokens_seen": 22183456,
      "step": 33900
    },
    {
      "epoch": 17.76991614255765,
      "grad_norm": 0.18093033134937286,
      "learning_rate": 3.741527548908113e-05,
      "loss": 0.5093,
      "num_input_tokens_seen": 22187584,
      "step": 33905
    },
    {
      "epoch": 17.77253668763103,
      "grad_norm": 0.13233470916748047,
      "learning_rate": 3.732852522835023e-05,
      "loss": 0.4235,
      "num_input_tokens_seen": 22191296,
      "step": 33910
    },
    {
      "epoch": 17.7751572327044,
      "grad_norm": 0.14457868039608002,
      "learning_rate": 3.724187175321342e-05,
      "loss": 0.4951,
      "num_input_tokens_seen": 22195552,
      "step": 33915
    },
    {
      "epoch": 17.77777777777778,
      "grad_norm": 0.10052085667848587,
      "learning_rate": 3.71553150817977e-05,
      "loss": 0.4076,
      "num_input_tokens_seen": 22199296,
      "step": 33920
    },
    {
      "epoch": 17.780398322851152,
      "grad_norm": 0.19151732325553894,
      "learning_rate": 3.70688552322096e-05,
      "loss": 0.4378,
      "num_input_tokens_seen": 22202144,
      "step": 33925
    },
    {
      "epoch": 17.78301886792453,
      "grad_norm": 0.13434317708015442,
      "learning_rate": 3.698249222253569e-05,
      "loss": 0.5063,
      "num_input_tokens_seen": 22205440,
      "step": 33930
    },
    {
      "epoch": 17.785639412997902,
      "grad_norm": 0.16278228163719177,
      "learning_rate": 3.6896226070841863e-05,
      "loss": 0.4491,
      "num_input_tokens_seen": 22209120,
      "step": 33935
    },
    {
      "epoch": 17.78825995807128,
      "grad_norm": 0.09654033184051514,
      "learning_rate": 3.681005679517424e-05,
      "loss": 0.3701,
      "num_input_tokens_seen": 22213120,
      "step": 33940
    },
    {
      "epoch": 17.790880503144653,
      "grad_norm": 0.19779257476329803,
      "learning_rate": 3.6723984413558455e-05,
      "loss": 0.4069,
      "num_input_tokens_seen": 22216768,
      "step": 33945
    },
    {
      "epoch": 17.79350104821803,
      "grad_norm": 0.1972033977508545,
      "learning_rate": 3.663800894399971e-05,
      "loss": 0.311,
      "num_input_tokens_seen": 22219968,
      "step": 33950
    },
    {
      "epoch": 17.796121593291403,
      "grad_norm": 0.1870221048593521,
      "learning_rate": 3.655213040448318e-05,
      "loss": 0.4424,
      "num_input_tokens_seen": 22222368,
      "step": 33955
    },
    {
      "epoch": 17.79874213836478,
      "grad_norm": 0.09851822257041931,
      "learning_rate": 3.6466348812973723e-05,
      "loss": 0.4143,
      "num_input_tokens_seen": 22226112,
      "step": 33960
    },
    {
      "epoch": 17.801362683438157,
      "grad_norm": 0.10098599642515182,
      "learning_rate": 3.6380664187415815e-05,
      "loss": 0.4194,
      "num_input_tokens_seen": 22229728,
      "step": 33965
    },
    {
      "epoch": 17.80398322851153,
      "grad_norm": 0.1069486141204834,
      "learning_rate": 3.6295076545733663e-05,
      "loss": 0.4314,
      "num_input_tokens_seen": 22232928,
      "step": 33970
    },
    {
      "epoch": 17.806603773584907,
      "grad_norm": 0.1806735098361969,
      "learning_rate": 3.6209585905831344e-05,
      "loss": 0.4512,
      "num_input_tokens_seen": 22235776,
      "step": 33975
    },
    {
      "epoch": 17.80922431865828,
      "grad_norm": 0.14271368086338043,
      "learning_rate": 3.6124192285592385e-05,
      "loss": 0.3648,
      "num_input_tokens_seen": 22239136,
      "step": 33980
    },
    {
      "epoch": 17.811844863731658,
      "grad_norm": 0.260204941034317,
      "learning_rate": 3.6038895702880324e-05,
      "loss": 0.3657,
      "num_input_tokens_seen": 22243872,
      "step": 33985
    },
    {
      "epoch": 17.81446540880503,
      "grad_norm": 0.2637563645839691,
      "learning_rate": 3.595369617553806e-05,
      "loss": 0.4805,
      "num_input_tokens_seen": 22247168,
      "step": 33990
    },
    {
      "epoch": 17.817085953878408,
      "grad_norm": 0.10325188934803009,
      "learning_rate": 3.58685937213884e-05,
      "loss": 0.5655,
      "num_input_tokens_seen": 22251648,
      "step": 33995
    },
    {
      "epoch": 17.81970649895178,
      "grad_norm": 0.15402819216251373,
      "learning_rate": 3.5783588358233863e-05,
      "loss": 0.4763,
      "num_input_tokens_seen": 22254240,
      "step": 34000
    },
    {
      "epoch": 17.822327044025158,
      "grad_norm": 0.12015070766210556,
      "learning_rate": 3.569868010385663e-05,
      "loss": 0.5522,
      "num_input_tokens_seen": 22258176,
      "step": 34005
    },
    {
      "epoch": 17.82494758909853,
      "grad_norm": 0.14766556024551392,
      "learning_rate": 3.5613868976018535e-05,
      "loss": 0.4382,
      "num_input_tokens_seen": 22261120,
      "step": 34010
    },
    {
      "epoch": 17.82756813417191,
      "grad_norm": 0.14805540442466736,
      "learning_rate": 3.5529154992460955e-05,
      "loss": 0.4468,
      "num_input_tokens_seen": 22264480,
      "step": 34015
    },
    {
      "epoch": 17.830188679245282,
      "grad_norm": 0.11916650831699371,
      "learning_rate": 3.544453817090521e-05,
      "loss": 0.3283,
      "num_input_tokens_seen": 22267392,
      "step": 34020
    },
    {
      "epoch": 17.83280922431866,
      "grad_norm": 0.18193960189819336,
      "learning_rate": 3.536001852905207e-05,
      "loss": 0.4932,
      "num_input_tokens_seen": 22270336,
      "step": 34025
    },
    {
      "epoch": 17.835429769392032,
      "grad_norm": 0.19363410770893097,
      "learning_rate": 3.527559608458225e-05,
      "loss": 0.4986,
      "num_input_tokens_seen": 22273472,
      "step": 34030
    },
    {
      "epoch": 17.83805031446541,
      "grad_norm": 0.08144386857748032,
      "learning_rate": 3.5191270855155886e-05,
      "loss": 0.3039,
      "num_input_tokens_seen": 22276320,
      "step": 34035
    },
    {
      "epoch": 17.840670859538783,
      "grad_norm": 0.12201417982578278,
      "learning_rate": 3.510704285841293e-05,
      "loss": 0.3782,
      "num_input_tokens_seen": 22280224,
      "step": 34040
    },
    {
      "epoch": 17.84329140461216,
      "grad_norm": 0.11747809499502182,
      "learning_rate": 3.502291211197267e-05,
      "loss": 0.4394,
      "num_input_tokens_seen": 22283584,
      "step": 34045
    },
    {
      "epoch": 17.845911949685533,
      "grad_norm": 0.19191183149814606,
      "learning_rate": 3.493887863343448e-05,
      "loss": 0.3733,
      "num_input_tokens_seen": 22285952,
      "step": 34050
    },
    {
      "epoch": 17.84853249475891,
      "grad_norm": 0.1847532093524933,
      "learning_rate": 3.485494244037718e-05,
      "loss": 0.4259,
      "num_input_tokens_seen": 22288608,
      "step": 34055
    },
    {
      "epoch": 17.851153039832283,
      "grad_norm": 0.1671610176563263,
      "learning_rate": 3.477110355035934e-05,
      "loss": 0.3713,
      "num_input_tokens_seen": 22292416,
      "step": 34060
    },
    {
      "epoch": 17.85377358490566,
      "grad_norm": 0.15316569805145264,
      "learning_rate": 3.468736198091904e-05,
      "loss": 0.4009,
      "num_input_tokens_seen": 22295776,
      "step": 34065
    },
    {
      "epoch": 17.856394129979037,
      "grad_norm": 0.17483413219451904,
      "learning_rate": 3.4603717749573935e-05,
      "loss": 0.5541,
      "num_input_tokens_seen": 22298272,
      "step": 34070
    },
    {
      "epoch": 17.85901467505241,
      "grad_norm": 0.18035303056240082,
      "learning_rate": 3.452017087382159e-05,
      "loss": 0.3071,
      "num_input_tokens_seen": 22300960,
      "step": 34075
    },
    {
      "epoch": 17.861635220125788,
      "grad_norm": 0.21335332095623016,
      "learning_rate": 3.443672137113901e-05,
      "loss": 0.3981,
      "num_input_tokens_seen": 22303904,
      "step": 34080
    },
    {
      "epoch": 17.86425576519916,
      "grad_norm": 0.16862133145332336,
      "learning_rate": 3.4353369258983025e-05,
      "loss": 0.3739,
      "num_input_tokens_seen": 22307584,
      "step": 34085
    },
    {
      "epoch": 17.866876310272538,
      "grad_norm": 0.1334945261478424,
      "learning_rate": 3.4270114554789735e-05,
      "loss": 0.4033,
      "num_input_tokens_seen": 22311008,
      "step": 34090
    },
    {
      "epoch": 17.86949685534591,
      "grad_norm": 0.10506483912467957,
      "learning_rate": 3.41869572759751e-05,
      "loss": 0.3426,
      "num_input_tokens_seen": 22313888,
      "step": 34095
    },
    {
      "epoch": 17.872117400419288,
      "grad_norm": 0.0944509208202362,
      "learning_rate": 3.410389743993475e-05,
      "loss": 0.4056,
      "num_input_tokens_seen": 22317376,
      "step": 34100
    },
    {
      "epoch": 17.87473794549266,
      "grad_norm": 0.1359119564294815,
      "learning_rate": 3.40209350640438e-05,
      "loss": 0.5302,
      "num_input_tokens_seen": 22320320,
      "step": 34105
    },
    {
      "epoch": 17.87735849056604,
      "grad_norm": 0.1413537561893463,
      "learning_rate": 3.3938070165657084e-05,
      "loss": 0.4254,
      "num_input_tokens_seen": 22323136,
      "step": 34110
    },
    {
      "epoch": 17.879979035639412,
      "grad_norm": 0.11244364827871323,
      "learning_rate": 3.385530276210902e-05,
      "loss": 0.4301,
      "num_input_tokens_seen": 22326848,
      "step": 34115
    },
    {
      "epoch": 17.88259958071279,
      "grad_norm": 0.12065070867538452,
      "learning_rate": 3.377263287071358e-05,
      "loss": 0.3342,
      "num_input_tokens_seen": 22329856,
      "step": 34120
    },
    {
      "epoch": 17.885220125786162,
      "grad_norm": 0.3454943597316742,
      "learning_rate": 3.369006050876428e-05,
      "loss": 0.541,
      "num_input_tokens_seen": 22332032,
      "step": 34125
    },
    {
      "epoch": 17.88784067085954,
      "grad_norm": 0.16120977699756622,
      "learning_rate": 3.3607585693534394e-05,
      "loss": 0.5355,
      "num_input_tokens_seen": 22334656,
      "step": 34130
    },
    {
      "epoch": 17.890461215932913,
      "grad_norm": 0.0967729315161705,
      "learning_rate": 3.352520844227663e-05,
      "loss": 0.4004,
      "num_input_tokens_seen": 22337632,
      "step": 34135
    },
    {
      "epoch": 17.89308176100629,
      "grad_norm": 0.15997567772865295,
      "learning_rate": 3.344292877222355e-05,
      "loss": 0.5451,
      "num_input_tokens_seen": 22340288,
      "step": 34140
    },
    {
      "epoch": 17.895702306079663,
      "grad_norm": 0.12326274812221527,
      "learning_rate": 3.336074670058703e-05,
      "loss": 0.4144,
      "num_input_tokens_seen": 22342848,
      "step": 34145
    },
    {
      "epoch": 17.89832285115304,
      "grad_norm": 0.15672773122787476,
      "learning_rate": 3.327866224455844e-05,
      "loss": 0.4853,
      "num_input_tokens_seen": 22346400,
      "step": 34150
    },
    {
      "epoch": 17.900943396226417,
      "grad_norm": 0.09690514951944351,
      "learning_rate": 3.3196675421309165e-05,
      "loss": 0.3905,
      "num_input_tokens_seen": 22350592,
      "step": 34155
    },
    {
      "epoch": 17.90356394129979,
      "grad_norm": 0.08829615265130997,
      "learning_rate": 3.3114786247989744e-05,
      "loss": 0.3508,
      "num_input_tokens_seen": 22354560,
      "step": 34160
    },
    {
      "epoch": 17.906184486373167,
      "grad_norm": 0.1339382529258728,
      "learning_rate": 3.303299474173066e-05,
      "loss": 0.4668,
      "num_input_tokens_seen": 22357888,
      "step": 34165
    },
    {
      "epoch": 17.90880503144654,
      "grad_norm": 0.28488975763320923,
      "learning_rate": 3.2951300919641544e-05,
      "loss": 0.4377,
      "num_input_tokens_seen": 22360224,
      "step": 34170
    },
    {
      "epoch": 17.911425576519918,
      "grad_norm": 0.11385998874902725,
      "learning_rate": 3.2869704798811964e-05,
      "loss": 0.4091,
      "num_input_tokens_seen": 22364480,
      "step": 34175
    },
    {
      "epoch": 17.91404612159329,
      "grad_norm": 0.2985226809978485,
      "learning_rate": 3.2788206396310746e-05,
      "loss": 0.4098,
      "num_input_tokens_seen": 22367808,
      "step": 34180
    },
    {
      "epoch": 17.916666666666668,
      "grad_norm": 0.14032168686389923,
      "learning_rate": 3.270680572918655e-05,
      "loss": 0.3805,
      "num_input_tokens_seen": 22371328,
      "step": 34185
    },
    {
      "epoch": 17.91928721174004,
      "grad_norm": 0.10253458470106125,
      "learning_rate": 3.262550281446741e-05,
      "loss": 0.472,
      "num_input_tokens_seen": 22374080,
      "step": 34190
    },
    {
      "epoch": 17.921907756813418,
      "grad_norm": 0.15650197863578796,
      "learning_rate": 3.2544297669161115e-05,
      "loss": 0.4675,
      "num_input_tokens_seen": 22377600,
      "step": 34195
    },
    {
      "epoch": 17.92452830188679,
      "grad_norm": 0.15084198117256165,
      "learning_rate": 3.2463190310254633e-05,
      "loss": 0.3507,
      "num_input_tokens_seen": 22380608,
      "step": 34200
    },
    {
      "epoch": 17.92714884696017,
      "grad_norm": 0.26097726821899414,
      "learning_rate": 3.238218075471483e-05,
      "loss": 0.4023,
      "num_input_tokens_seen": 22383328,
      "step": 34205
    },
    {
      "epoch": 17.929769392033542,
      "grad_norm": 0.19611546397209167,
      "learning_rate": 3.230126901948788e-05,
      "loss": 0.335,
      "num_input_tokens_seen": 22387520,
      "step": 34210
    },
    {
      "epoch": 17.93238993710692,
      "grad_norm": 0.14471806585788727,
      "learning_rate": 3.222045512149968e-05,
      "loss": 0.4364,
      "num_input_tokens_seen": 22390368,
      "step": 34215
    },
    {
      "epoch": 17.935010482180292,
      "grad_norm": 0.17840641736984253,
      "learning_rate": 3.213973907765566e-05,
      "loss": 0.4341,
      "num_input_tokens_seen": 22392864,
      "step": 34220
    },
    {
      "epoch": 17.93763102725367,
      "grad_norm": 0.19839100539684296,
      "learning_rate": 3.205912090484048e-05,
      "loss": 0.3595,
      "num_input_tokens_seen": 22395616,
      "step": 34225
    },
    {
      "epoch": 17.940251572327043,
      "grad_norm": 0.18431410193443298,
      "learning_rate": 3.1978600619918754e-05,
      "loss": 0.3431,
      "num_input_tokens_seen": 22399040,
      "step": 34230
    },
    {
      "epoch": 17.94287211740042,
      "grad_norm": 0.1198478639125824,
      "learning_rate": 3.189817823973423e-05,
      "loss": 0.4882,
      "num_input_tokens_seen": 22402016,
      "step": 34235
    },
    {
      "epoch": 17.945492662473793,
      "grad_norm": 0.10339058935642242,
      "learning_rate": 3.18178537811104e-05,
      "loss": 0.4285,
      "num_input_tokens_seen": 22405440,
      "step": 34240
    },
    {
      "epoch": 17.94811320754717,
      "grad_norm": 0.2760721445083618,
      "learning_rate": 3.1737627260850335e-05,
      "loss": 0.4124,
      "num_input_tokens_seen": 22408640,
      "step": 34245
    },
    {
      "epoch": 17.950733752620543,
      "grad_norm": 0.16532672941684723,
      "learning_rate": 3.1657498695736364e-05,
      "loss": 0.4371,
      "num_input_tokens_seen": 22411808,
      "step": 34250
    },
    {
      "epoch": 17.95335429769392,
      "grad_norm": 0.17182137072086334,
      "learning_rate": 3.157746810253054e-05,
      "loss": 0.5146,
      "num_input_tokens_seen": 22415168,
      "step": 34255
    },
    {
      "epoch": 17.955974842767297,
      "grad_norm": 0.18164664506912231,
      "learning_rate": 3.149753549797446e-05,
      "loss": 0.3714,
      "num_input_tokens_seen": 22419264,
      "step": 34260
    },
    {
      "epoch": 17.95859538784067,
      "grad_norm": 0.18737195432186127,
      "learning_rate": 3.141770089878887e-05,
      "loss": 0.4239,
      "num_input_tokens_seen": 22422688,
      "step": 34265
    },
    {
      "epoch": 17.961215932914047,
      "grad_norm": 0.14333564043045044,
      "learning_rate": 3.1337964321674354e-05,
      "loss": 0.4512,
      "num_input_tokens_seen": 22425600,
      "step": 34270
    },
    {
      "epoch": 17.96383647798742,
      "grad_norm": 0.19214586913585663,
      "learning_rate": 3.125832578331106e-05,
      "loss": 0.3467,
      "num_input_tokens_seen": 22430496,
      "step": 34275
    },
    {
      "epoch": 17.966457023060798,
      "grad_norm": 0.1181720420718193,
      "learning_rate": 3.117878530035823e-05,
      "loss": 0.4103,
      "num_input_tokens_seen": 22433504,
      "step": 34280
    },
    {
      "epoch": 17.96907756813417,
      "grad_norm": 0.1414070576429367,
      "learning_rate": 3.1099342889454875e-05,
      "loss": 0.5337,
      "num_input_tokens_seen": 22436640,
      "step": 34285
    },
    {
      "epoch": 17.971698113207548,
      "grad_norm": 0.32513484358787537,
      "learning_rate": 3.1019998567219597e-05,
      "loss": 0.3422,
      "num_input_tokens_seen": 22439648,
      "step": 34290
    },
    {
      "epoch": 17.97431865828092,
      "grad_norm": 0.10304275155067444,
      "learning_rate": 3.0940752350250125e-05,
      "loss": 0.4478,
      "num_input_tokens_seen": 22443360,
      "step": 34295
    },
    {
      "epoch": 17.9769392033543,
      "grad_norm": 0.26495063304901123,
      "learning_rate": 3.0861604255124074e-05,
      "loss": 0.455,
      "num_input_tokens_seen": 22445888,
      "step": 34300
    },
    {
      "epoch": 17.979559748427672,
      "grad_norm": 0.17294864356517792,
      "learning_rate": 3.0782554298398045e-05,
      "loss": 0.3703,
      "num_input_tokens_seen": 22449536,
      "step": 34305
    },
    {
      "epoch": 17.98218029350105,
      "grad_norm": 0.29463571310043335,
      "learning_rate": 3.070360249660859e-05,
      "loss": 0.4946,
      "num_input_tokens_seen": 22453504,
      "step": 34310
    },
    {
      "epoch": 17.984800838574422,
      "grad_norm": 0.23515726625919342,
      "learning_rate": 3.0624748866271535e-05,
      "loss": 0.6017,
      "num_input_tokens_seen": 22457312,
      "step": 34315
    },
    {
      "epoch": 17.9874213836478,
      "grad_norm": 0.1918882578611374,
      "learning_rate": 3.0545993423882036e-05,
      "loss": 0.4061,
      "num_input_tokens_seen": 22459840,
      "step": 34320
    },
    {
      "epoch": 17.990041928721173,
      "grad_norm": 0.14773337543010712,
      "learning_rate": 3.046733618591496e-05,
      "loss": 0.4004,
      "num_input_tokens_seen": 22462528,
      "step": 34325
    },
    {
      "epoch": 17.99266247379455,
      "grad_norm": 0.19537727534770966,
      "learning_rate": 3.0388777168824434e-05,
      "loss": 0.4568,
      "num_input_tokens_seen": 22465696,
      "step": 34330
    },
    {
      "epoch": 17.995283018867923,
      "grad_norm": 0.1132209375500679,
      "learning_rate": 3.0310316389044022e-05,
      "loss": 0.522,
      "num_input_tokens_seen": 22468448,
      "step": 34335
    },
    {
      "epoch": 17.9979035639413,
      "grad_norm": 0.2493925392627716,
      "learning_rate": 3.0231953862986995e-05,
      "loss": 0.4305,
      "num_input_tokens_seen": 22471168,
      "step": 34340
    },
    {
      "epoch": 18.0,
      "eval_loss": 0.45509806275367737,
      "eval_runtime": 13.2979,
      "eval_samples_per_second": 63.769,
      "eval_steps_per_second": 15.942,
      "num_input_tokens_seen": 22472696,
      "step": 34344
    },
    {
      "epoch": 18.000524109014677,
      "grad_norm": 0.2048041671514511,
      "learning_rate": 3.0153689607045842e-05,
      "loss": 0.4939,
      "num_input_tokens_seen": 22473112,
      "step": 34345
    },
    {
      "epoch": 18.00314465408805,
      "grad_norm": 0.12203466147184372,
      "learning_rate": 3.0075523637592474e-05,
      "loss": 0.5295,
      "num_input_tokens_seen": 22475928,
      "step": 34350
    },
    {
      "epoch": 18.005765199161427,
      "grad_norm": 0.14668960869312286,
      "learning_rate": 2.999745597097847e-05,
      "loss": 0.405,
      "num_input_tokens_seen": 22478424,
      "step": 34355
    },
    {
      "epoch": 18.0083857442348,
      "grad_norm": 0.08967729657888412,
      "learning_rate": 2.9919486623534497e-05,
      "loss": 0.3571,
      "num_input_tokens_seen": 22481496,
      "step": 34360
    },
    {
      "epoch": 18.011006289308177,
      "grad_norm": 0.05536779761314392,
      "learning_rate": 2.9841615611571005e-05,
      "loss": 0.5271,
      "num_input_tokens_seen": 22488472,
      "step": 34365
    },
    {
      "epoch": 18.01362683438155,
      "grad_norm": 0.23647050559520721,
      "learning_rate": 2.9763842951377628e-05,
      "loss": 0.5937,
      "num_input_tokens_seen": 22491384,
      "step": 34370
    },
    {
      "epoch": 18.016247379454928,
      "grad_norm": 0.12239796668291092,
      "learning_rate": 2.968616865922369e-05,
      "loss": 0.3261,
      "num_input_tokens_seen": 22494104,
      "step": 34375
    },
    {
      "epoch": 18.0188679245283,
      "grad_norm": 0.11784302443265915,
      "learning_rate": 2.960859275135758e-05,
      "loss": 0.4906,
      "num_input_tokens_seen": 22497656,
      "step": 34380
    },
    {
      "epoch": 18.021488469601678,
      "grad_norm": 0.15841174125671387,
      "learning_rate": 2.9531115244007367e-05,
      "loss": 0.4043,
      "num_input_tokens_seen": 22500920,
      "step": 34385
    },
    {
      "epoch": 18.02410901467505,
      "grad_norm": 0.2704302966594696,
      "learning_rate": 2.945373615338037e-05,
      "loss": 0.3651,
      "num_input_tokens_seen": 22504408,
      "step": 34390
    },
    {
      "epoch": 18.02672955974843,
      "grad_norm": 0.15060792863368988,
      "learning_rate": 2.9376455495663534e-05,
      "loss": 0.3954,
      "num_input_tokens_seen": 22506904,
      "step": 34395
    },
    {
      "epoch": 18.029350104821802,
      "grad_norm": 0.15851454436779022,
      "learning_rate": 2.9299273287023144e-05,
      "loss": 0.4954,
      "num_input_tokens_seen": 22510200,
      "step": 34400
    },
    {
      "epoch": 18.03197064989518,
      "grad_norm": 0.1354357749223709,
      "learning_rate": 2.922218954360473e-05,
      "loss": 0.3363,
      "num_input_tokens_seen": 22513112,
      "step": 34405
    },
    {
      "epoch": 18.034591194968552,
      "grad_norm": 0.18440474569797516,
      "learning_rate": 2.9145204281533278e-05,
      "loss": 0.4422,
      "num_input_tokens_seen": 22516824,
      "step": 34410
    },
    {
      "epoch": 18.03721174004193,
      "grad_norm": 0.24438098073005676,
      "learning_rate": 2.9068317516913244e-05,
      "loss": 0.3827,
      "num_input_tokens_seen": 22520184,
      "step": 34415
    },
    {
      "epoch": 18.039832285115303,
      "grad_norm": 0.17254413664340973,
      "learning_rate": 2.8991529265828542e-05,
      "loss": 0.3568,
      "num_input_tokens_seen": 22523000,
      "step": 34420
    },
    {
      "epoch": 18.04245283018868,
      "grad_norm": 0.18021529912948608,
      "learning_rate": 2.891483954434243e-05,
      "loss": 0.3313,
      "num_input_tokens_seen": 22525400,
      "step": 34425
    },
    {
      "epoch": 18.045073375262053,
      "grad_norm": 0.2304142564535141,
      "learning_rate": 2.8838248368497465e-05,
      "loss": 0.4493,
      "num_input_tokens_seen": 22528344,
      "step": 34430
    },
    {
      "epoch": 18.04769392033543,
      "grad_norm": 0.14028139412403107,
      "learning_rate": 2.8761755754315667e-05,
      "loss": 0.4222,
      "num_input_tokens_seen": 22530776,
      "step": 34435
    },
    {
      "epoch": 18.050314465408807,
      "grad_norm": 0.21376290917396545,
      "learning_rate": 2.8685361717798286e-05,
      "loss": 0.3865,
      "num_input_tokens_seen": 22534584,
      "step": 34440
    },
    {
      "epoch": 18.05293501048218,
      "grad_norm": 0.10480502992868423,
      "learning_rate": 2.8609066274926265e-05,
      "loss": 0.4299,
      "num_input_tokens_seen": 22539192,
      "step": 34445
    },
    {
      "epoch": 18.055555555555557,
      "grad_norm": 0.10415308177471161,
      "learning_rate": 2.8532869441659615e-05,
      "loss": 0.3191,
      "num_input_tokens_seen": 22541624,
      "step": 34450
    },
    {
      "epoch": 18.05817610062893,
      "grad_norm": 0.1325533539056778,
      "learning_rate": 2.8456771233937973e-05,
      "loss": 0.44,
      "num_input_tokens_seen": 22544888,
      "step": 34455
    },
    {
      "epoch": 18.060796645702307,
      "grad_norm": 0.18502622842788696,
      "learning_rate": 2.838077166768016e-05,
      "loss": 0.399,
      "num_input_tokens_seen": 22547704,
      "step": 34460
    },
    {
      "epoch": 18.06341719077568,
      "grad_norm": 0.14262887835502625,
      "learning_rate": 2.8304870758784296e-05,
      "loss": 0.3475,
      "num_input_tokens_seen": 22551352,
      "step": 34465
    },
    {
      "epoch": 18.066037735849058,
      "grad_norm": 0.16120612621307373,
      "learning_rate": 2.822906852312812e-05,
      "loss": 0.4891,
      "num_input_tokens_seen": 22554520,
      "step": 34470
    },
    {
      "epoch": 18.06865828092243,
      "grad_norm": 0.15739549696445465,
      "learning_rate": 2.8153364976568563e-05,
      "loss": 0.4176,
      "num_input_tokens_seen": 22557528,
      "step": 34475
    },
    {
      "epoch": 18.071278825995808,
      "grad_norm": 0.20054730772972107,
      "learning_rate": 2.8077760134941955e-05,
      "loss": 0.3602,
      "num_input_tokens_seen": 22560632,
      "step": 34480
    },
    {
      "epoch": 18.07389937106918,
      "grad_norm": 0.23811832070350647,
      "learning_rate": 2.800225401406392e-05,
      "loss": 0.4498,
      "num_input_tokens_seen": 22563896,
      "step": 34485
    },
    {
      "epoch": 18.07651991614256,
      "grad_norm": 0.1701750010251999,
      "learning_rate": 2.7926846629729607e-05,
      "loss": 0.4111,
      "num_input_tokens_seen": 22566136,
      "step": 34490
    },
    {
      "epoch": 18.079140461215932,
      "grad_norm": 0.22993746399879456,
      "learning_rate": 2.7851537997713174e-05,
      "loss": 0.3353,
      "num_input_tokens_seen": 22568824,
      "step": 34495
    },
    {
      "epoch": 18.08176100628931,
      "grad_norm": 0.1297088861465454,
      "learning_rate": 2.7776328133768458e-05,
      "loss": 0.5684,
      "num_input_tokens_seen": 22573304,
      "step": 34500
    },
    {
      "epoch": 18.084381551362682,
      "grad_norm": 0.12698692083358765,
      "learning_rate": 2.770121705362849e-05,
      "loss": 0.6762,
      "num_input_tokens_seen": 22577304,
      "step": 34505
    },
    {
      "epoch": 18.08700209643606,
      "grad_norm": 0.13031134009361267,
      "learning_rate": 2.7626204773005704e-05,
      "loss": 0.5036,
      "num_input_tokens_seen": 22580568,
      "step": 34510
    },
    {
      "epoch": 18.089622641509433,
      "grad_norm": 0.15663649141788483,
      "learning_rate": 2.7551291307591765e-05,
      "loss": 0.4776,
      "num_input_tokens_seen": 22583416,
      "step": 34515
    },
    {
      "epoch": 18.09224318658281,
      "grad_norm": 0.1618729680776596,
      "learning_rate": 2.7476476673057636e-05,
      "loss": 0.3352,
      "num_input_tokens_seen": 22587544,
      "step": 34520
    },
    {
      "epoch": 18.094863731656183,
      "grad_norm": 0.08890900015830994,
      "learning_rate": 2.740176088505375e-05,
      "loss": 0.522,
      "num_input_tokens_seen": 22590712,
      "step": 34525
    },
    {
      "epoch": 18.09748427672956,
      "grad_norm": 0.16914384067058563,
      "learning_rate": 2.7327143959209765e-05,
      "loss": 0.3865,
      "num_input_tokens_seen": 22593528,
      "step": 34530
    },
    {
      "epoch": 18.100104821802937,
      "grad_norm": 0.18548215925693512,
      "learning_rate": 2.725262591113481e-05,
      "loss": 0.5159,
      "num_input_tokens_seen": 22597496,
      "step": 34535
    },
    {
      "epoch": 18.10272536687631,
      "grad_norm": 0.16395995020866394,
      "learning_rate": 2.7178206756417078e-05,
      "loss": 0.483,
      "num_input_tokens_seen": 22599960,
      "step": 34540
    },
    {
      "epoch": 18.105345911949687,
      "grad_norm": 0.14221805334091187,
      "learning_rate": 2.7103886510624344e-05,
      "loss": 0.6368,
      "num_input_tokens_seen": 22602872,
      "step": 34545
    },
    {
      "epoch": 18.10796645702306,
      "grad_norm": 0.2156350016593933,
      "learning_rate": 2.7029665189303387e-05,
      "loss": 0.4901,
      "num_input_tokens_seen": 22605592,
      "step": 34550
    },
    {
      "epoch": 18.110587002096437,
      "grad_norm": 0.14978942275047302,
      "learning_rate": 2.6955542807980515e-05,
      "loss": 0.562,
      "num_input_tokens_seen": 22609112,
      "step": 34555
    },
    {
      "epoch": 18.11320754716981,
      "grad_norm": 0.11840134859085083,
      "learning_rate": 2.688151938216138e-05,
      "loss": 0.4664,
      "num_input_tokens_seen": 22611736,
      "step": 34560
    },
    {
      "epoch": 18.115828092243188,
      "grad_norm": 0.18094782531261444,
      "learning_rate": 2.6807594927330703e-05,
      "loss": 0.3548,
      "num_input_tokens_seen": 22615896,
      "step": 34565
    },
    {
      "epoch": 18.11844863731656,
      "grad_norm": 0.19687049090862274,
      "learning_rate": 2.6733769458952727e-05,
      "loss": 0.3508,
      "num_input_tokens_seen": 22618296,
      "step": 34570
    },
    {
      "epoch": 18.121069182389938,
      "grad_norm": 0.16744586825370789,
      "learning_rate": 2.6660042992470934e-05,
      "loss": 0.5105,
      "num_input_tokens_seen": 22621976,
      "step": 34575
    },
    {
      "epoch": 18.12368972746331,
      "grad_norm": 0.159054696559906,
      "learning_rate": 2.658641554330793e-05,
      "loss": 0.3307,
      "num_input_tokens_seen": 22625720,
      "step": 34580
    },
    {
      "epoch": 18.12631027253669,
      "grad_norm": 0.11442700773477554,
      "learning_rate": 2.6512887126865782e-05,
      "loss": 0.418,
      "num_input_tokens_seen": 22629496,
      "step": 34585
    },
    {
      "epoch": 18.128930817610062,
      "grad_norm": 0.1595982164144516,
      "learning_rate": 2.6439457758525908e-05,
      "loss": 0.4934,
      "num_input_tokens_seen": 22632920,
      "step": 34590
    },
    {
      "epoch": 18.13155136268344,
      "grad_norm": 0.12432681024074554,
      "learning_rate": 2.6366127453648748e-05,
      "loss": 0.3601,
      "num_input_tokens_seen": 22636536,
      "step": 34595
    },
    {
      "epoch": 18.134171907756812,
      "grad_norm": 0.17067751288414001,
      "learning_rate": 2.6292896227574303e-05,
      "loss": 0.6356,
      "num_input_tokens_seen": 22639800,
      "step": 34600
    },
    {
      "epoch": 18.13679245283019,
      "grad_norm": 0.2028128206729889,
      "learning_rate": 2.6219764095621547e-05,
      "loss": 0.4951,
      "num_input_tokens_seen": 22642520,
      "step": 34605
    },
    {
      "epoch": 18.139412997903563,
      "grad_norm": 0.12515637278556824,
      "learning_rate": 2.6146731073088958e-05,
      "loss": 0.3615,
      "num_input_tokens_seen": 22645784,
      "step": 34610
    },
    {
      "epoch": 18.14203354297694,
      "grad_norm": 0.2185136377811432,
      "learning_rate": 2.607379717525432e-05,
      "loss": 0.396,
      "num_input_tokens_seen": 22648664,
      "step": 34615
    },
    {
      "epoch": 18.144654088050313,
      "grad_norm": 0.15493930876255035,
      "learning_rate": 2.6000962417374373e-05,
      "loss": 0.4983,
      "num_input_tokens_seen": 22651832,
      "step": 34620
    },
    {
      "epoch": 18.14727463312369,
      "grad_norm": 0.11229535192251205,
      "learning_rate": 2.5928226814685485e-05,
      "loss": 0.4392,
      "num_input_tokens_seen": 22654808,
      "step": 34625
    },
    {
      "epoch": 18.149895178197063,
      "grad_norm": 0.15229691565036774,
      "learning_rate": 2.585559038240304e-05,
      "loss": 0.4422,
      "num_input_tokens_seen": 22657624,
      "step": 34630
    },
    {
      "epoch": 18.15251572327044,
      "grad_norm": 0.15133057534694672,
      "learning_rate": 2.5783053135721714e-05,
      "loss": 0.4024,
      "num_input_tokens_seen": 22659960,
      "step": 34635
    },
    {
      "epoch": 18.155136268343817,
      "grad_norm": 0.1792679727077484,
      "learning_rate": 2.571061508981565e-05,
      "loss": 0.4712,
      "num_input_tokens_seen": 22665080,
      "step": 34640
    },
    {
      "epoch": 18.15775681341719,
      "grad_norm": 0.16028673946857452,
      "learning_rate": 2.5638276259837778e-05,
      "loss": 0.5103,
      "num_input_tokens_seen": 22667544,
      "step": 34645
    },
    {
      "epoch": 18.160377358490567,
      "grad_norm": 0.16768933832645416,
      "learning_rate": 2.5566036660920778e-05,
      "loss": 0.3809,
      "num_input_tokens_seen": 22671032,
      "step": 34650
    },
    {
      "epoch": 18.16299790356394,
      "grad_norm": 0.10440656542778015,
      "learning_rate": 2.5493896308176223e-05,
      "loss": 0.3529,
      "num_input_tokens_seen": 22675416,
      "step": 34655
    },
    {
      "epoch": 18.165618448637318,
      "grad_norm": 0.167861670255661,
      "learning_rate": 2.542185521669521e-05,
      "loss": 0.4584,
      "num_input_tokens_seen": 22678008,
      "step": 34660
    },
    {
      "epoch": 18.16823899371069,
      "grad_norm": 0.19140169024467468,
      "learning_rate": 2.534991340154774e-05,
      "loss": 0.3366,
      "num_input_tokens_seen": 22680408,
      "step": 34665
    },
    {
      "epoch": 18.170859538784068,
      "grad_norm": 0.16177988052368164,
      "learning_rate": 2.5278070877783332e-05,
      "loss": 0.4655,
      "num_input_tokens_seen": 22685176,
      "step": 34670
    },
    {
      "epoch": 18.17348008385744,
      "grad_norm": 0.30208390951156616,
      "learning_rate": 2.520632766043052e-05,
      "loss": 0.2786,
      "num_input_tokens_seen": 22687960,
      "step": 34675
    },
    {
      "epoch": 18.17610062893082,
      "grad_norm": 0.15994957089424133,
      "learning_rate": 2.513468376449729e-05,
      "loss": 0.2769,
      "num_input_tokens_seen": 22690840,
      "step": 34680
    },
    {
      "epoch": 18.178721174004192,
      "grad_norm": 0.11163076758384705,
      "learning_rate": 2.506313920497061e-05,
      "loss": 0.3979,
      "num_input_tokens_seen": 22694424,
      "step": 34685
    },
    {
      "epoch": 18.18134171907757,
      "grad_norm": 0.11408588290214539,
      "learning_rate": 2.4991693996816888e-05,
      "loss": 0.4181,
      "num_input_tokens_seen": 22697976,
      "step": 34690
    },
    {
      "epoch": 18.183962264150942,
      "grad_norm": 0.24458082020282745,
      "learning_rate": 2.4920348154981677e-05,
      "loss": 0.491,
      "num_input_tokens_seen": 22701176,
      "step": 34695
    },
    {
      "epoch": 18.18658280922432,
      "grad_norm": 0.19089505076408386,
      "learning_rate": 2.4849101694389477e-05,
      "loss": 0.4443,
      "num_input_tokens_seen": 22703864,
      "step": 34700
    },
    {
      "epoch": 18.189203354297693,
      "grad_norm": 0.1985330730676651,
      "learning_rate": 2.4777954629944478e-05,
      "loss": 0.3259,
      "num_input_tokens_seen": 22706616,
      "step": 34705
    },
    {
      "epoch": 18.19182389937107,
      "grad_norm": 0.19944356381893158,
      "learning_rate": 2.4706906976529718e-05,
      "loss": 0.3799,
      "num_input_tokens_seen": 22709272,
      "step": 34710
    },
    {
      "epoch": 18.194444444444443,
      "grad_norm": 0.11363355815410614,
      "learning_rate": 2.4635958749007648e-05,
      "loss": 0.358,
      "num_input_tokens_seen": 22712568,
      "step": 34715
    },
    {
      "epoch": 18.19706498951782,
      "grad_norm": 0.1695249229669571,
      "learning_rate": 2.456510996221978e-05,
      "loss": 0.3992,
      "num_input_tokens_seen": 22715576,
      "step": 34720
    },
    {
      "epoch": 18.199685534591197,
      "grad_norm": 0.21517783403396606,
      "learning_rate": 2.4494360630986756e-05,
      "loss": 0.4656,
      "num_input_tokens_seen": 22718584,
      "step": 34725
    },
    {
      "epoch": 18.20230607966457,
      "grad_norm": 0.14209787547588348,
      "learning_rate": 2.4423710770108687e-05,
      "loss": 0.3757,
      "num_input_tokens_seen": 22722456,
      "step": 34730
    },
    {
      "epoch": 18.204926624737947,
      "grad_norm": 0.07838437706232071,
      "learning_rate": 2.435316039436464e-05,
      "loss": 0.489,
      "num_input_tokens_seen": 22726392,
      "step": 34735
    },
    {
      "epoch": 18.20754716981132,
      "grad_norm": 0.11628927290439606,
      "learning_rate": 2.428270951851297e-05,
      "loss": 0.4422,
      "num_input_tokens_seen": 22729560,
      "step": 34740
    },
    {
      "epoch": 18.210167714884697,
      "grad_norm": 0.12031114101409912,
      "learning_rate": 2.421235815729128e-05,
      "loss": 0.4337,
      "num_input_tokens_seen": 22733496,
      "step": 34745
    },
    {
      "epoch": 18.21278825995807,
      "grad_norm": 0.15768581628799438,
      "learning_rate": 2.414210632541619e-05,
      "loss": 0.2901,
      "num_input_tokens_seen": 22736120,
      "step": 34750
    },
    {
      "epoch": 18.215408805031448,
      "grad_norm": 0.1505184918642044,
      "learning_rate": 2.40719540375835e-05,
      "loss": 0.4494,
      "num_input_tokens_seen": 22738872,
      "step": 34755
    },
    {
      "epoch": 18.21802935010482,
      "grad_norm": 0.28575599193573,
      "learning_rate": 2.4001901308468353e-05,
      "loss": 0.471,
      "num_input_tokens_seen": 22741336,
      "step": 34760
    },
    {
      "epoch": 18.220649895178198,
      "grad_norm": 0.14026150107383728,
      "learning_rate": 2.3931948152724982e-05,
      "loss": 0.4113,
      "num_input_tokens_seen": 22744632,
      "step": 34765
    },
    {
      "epoch": 18.22327044025157,
      "grad_norm": 0.18648125231266022,
      "learning_rate": 2.386209458498684e-05,
      "loss": 0.5448,
      "num_input_tokens_seen": 22749048,
      "step": 34770
    },
    {
      "epoch": 18.22589098532495,
      "grad_norm": 0.11881078779697418,
      "learning_rate": 2.3792340619866458e-05,
      "loss": 0.4111,
      "num_input_tokens_seen": 22753048,
      "step": 34775
    },
    {
      "epoch": 18.228511530398322,
      "grad_norm": 0.18472957611083984,
      "learning_rate": 2.3722686271955507e-05,
      "loss": 0.4664,
      "num_input_tokens_seen": 22756440,
      "step": 34780
    },
    {
      "epoch": 18.2311320754717,
      "grad_norm": 0.22765520215034485,
      "learning_rate": 2.365313155582488e-05,
      "loss": 0.4467,
      "num_input_tokens_seen": 22759096,
      "step": 34785
    },
    {
      "epoch": 18.233752620545072,
      "grad_norm": 0.10131189227104187,
      "learning_rate": 2.358367648602472e-05,
      "loss": 0.3445,
      "num_input_tokens_seen": 22762424,
      "step": 34790
    },
    {
      "epoch": 18.23637316561845,
      "grad_norm": 0.19622434675693512,
      "learning_rate": 2.3514321077084234e-05,
      "loss": 0.3972,
      "num_input_tokens_seen": 22764600,
      "step": 34795
    },
    {
      "epoch": 18.238993710691823,
      "grad_norm": 0.1562080979347229,
      "learning_rate": 2.3445065343511763e-05,
      "loss": 0.4535,
      "num_input_tokens_seen": 22767672,
      "step": 34800
    },
    {
      "epoch": 18.2416142557652,
      "grad_norm": 0.1600145846605301,
      "learning_rate": 2.3375909299794717e-05,
      "loss": 0.4829,
      "num_input_tokens_seen": 22770776,
      "step": 34805
    },
    {
      "epoch": 18.244234800838573,
      "grad_norm": 0.11875568330287933,
      "learning_rate": 2.330685296039986e-05,
      "loss": 0.2802,
      "num_input_tokens_seen": 22774968,
      "step": 34810
    },
    {
      "epoch": 18.24685534591195,
      "grad_norm": 0.16122901439666748,
      "learning_rate": 2.3237896339772914e-05,
      "loss": 0.4253,
      "num_input_tokens_seen": 22778040,
      "step": 34815
    },
    {
      "epoch": 18.249475890985323,
      "grad_norm": 0.16374148428440094,
      "learning_rate": 2.3169039452338892e-05,
      "loss": 0.5868,
      "num_input_tokens_seen": 22780760,
      "step": 34820
    },
    {
      "epoch": 18.2520964360587,
      "grad_norm": 0.1773371547460556,
      "learning_rate": 2.3100282312501886e-05,
      "loss": 0.374,
      "num_input_tokens_seen": 22783480,
      "step": 34825
    },
    {
      "epoch": 18.254716981132077,
      "grad_norm": 0.11724565923213959,
      "learning_rate": 2.3031624934645113e-05,
      "loss": 0.4563,
      "num_input_tokens_seen": 22787704,
      "step": 34830
    },
    {
      "epoch": 18.25733752620545,
      "grad_norm": 0.12036187946796417,
      "learning_rate": 2.296306733313075e-05,
      "loss": 0.3706,
      "num_input_tokens_seen": 22791384,
      "step": 34835
    },
    {
      "epoch": 18.259958071278827,
      "grad_norm": 0.23255065083503723,
      "learning_rate": 2.289460952230038e-05,
      "loss": 0.4724,
      "num_input_tokens_seen": 22795000,
      "step": 34840
    },
    {
      "epoch": 18.2625786163522,
      "grad_norm": 0.16407530009746552,
      "learning_rate": 2.2826251516474604e-05,
      "loss": 0.3701,
      "num_input_tokens_seen": 22798072,
      "step": 34845
    },
    {
      "epoch": 18.265199161425578,
      "grad_norm": 0.16113193333148956,
      "learning_rate": 2.2757993329953152e-05,
      "loss": 0.438,
      "num_input_tokens_seen": 22801240,
      "step": 34850
    },
    {
      "epoch": 18.26781970649895,
      "grad_norm": 0.123778335750103,
      "learning_rate": 2.2689834977014822e-05,
      "loss": 0.4392,
      "num_input_tokens_seen": 22804056,
      "step": 34855
    },
    {
      "epoch": 18.270440251572328,
      "grad_norm": 0.19999630749225616,
      "learning_rate": 2.2621776471917598e-05,
      "loss": 0.4344,
      "num_input_tokens_seen": 22807480,
      "step": 34860
    },
    {
      "epoch": 18.2730607966457,
      "grad_norm": 0.1131022498011589,
      "learning_rate": 2.255381782889848e-05,
      "loss": 0.4748,
      "num_input_tokens_seen": 22810648,
      "step": 34865
    },
    {
      "epoch": 18.27568134171908,
      "grad_norm": 0.1710251122713089,
      "learning_rate": 2.2485959062173654e-05,
      "loss": 0.4565,
      "num_input_tokens_seen": 22814520,
      "step": 34870
    },
    {
      "epoch": 18.278301886792452,
      "grad_norm": 0.140250563621521,
      "learning_rate": 2.2418200185938485e-05,
      "loss": 0.4832,
      "num_input_tokens_seen": 22818264,
      "step": 34875
    },
    {
      "epoch": 18.28092243186583,
      "grad_norm": 0.18859738111495972,
      "learning_rate": 2.235054121436725e-05,
      "loss": 0.4385,
      "num_input_tokens_seen": 22821208,
      "step": 34880
    },
    {
      "epoch": 18.283542976939202,
      "grad_norm": 0.10040535032749176,
      "learning_rate": 2.2282982161613562e-05,
      "loss": 0.4106,
      "num_input_tokens_seen": 22824696,
      "step": 34885
    },
    {
      "epoch": 18.28616352201258,
      "grad_norm": 0.12513522803783417,
      "learning_rate": 2.221552304180985e-05,
      "loss": 0.3667,
      "num_input_tokens_seen": 22828024,
      "step": 34890
    },
    {
      "epoch": 18.288784067085953,
      "grad_norm": 0.19984804093837738,
      "learning_rate": 2.2148163869067816e-05,
      "loss": 0.4114,
      "num_input_tokens_seen": 22830456,
      "step": 34895
    },
    {
      "epoch": 18.29140461215933,
      "grad_norm": 0.15529684722423553,
      "learning_rate": 2.2080904657478305e-05,
      "loss": 0.358,
      "num_input_tokens_seen": 22833592,
      "step": 34900
    },
    {
      "epoch": 18.294025157232703,
      "grad_norm": 0.18579579889774323,
      "learning_rate": 2.201374542111123e-05,
      "loss": 0.4867,
      "num_input_tokens_seen": 22836696,
      "step": 34905
    },
    {
      "epoch": 18.29664570230608,
      "grad_norm": 0.1861671358346939,
      "learning_rate": 2.1946686174015407e-05,
      "loss": 0.3494,
      "num_input_tokens_seen": 22839960,
      "step": 34910
    },
    {
      "epoch": 18.299266247379457,
      "grad_norm": 0.2078428715467453,
      "learning_rate": 2.1879726930218946e-05,
      "loss": 0.4435,
      "num_input_tokens_seen": 22843000,
      "step": 34915
    },
    {
      "epoch": 18.30188679245283,
      "grad_norm": 0.17851702868938446,
      "learning_rate": 2.1812867703728866e-05,
      "loss": 0.3413,
      "num_input_tokens_seen": 22847032,
      "step": 34920
    },
    {
      "epoch": 18.304507337526207,
      "grad_norm": 0.17798039317131042,
      "learning_rate": 2.1746108508531426e-05,
      "loss": 0.3949,
      "num_input_tokens_seen": 22849976,
      "step": 34925
    },
    {
      "epoch": 18.30712788259958,
      "grad_norm": 0.20053867995738983,
      "learning_rate": 2.1679449358591952e-05,
      "loss": 0.3959,
      "num_input_tokens_seen": 22852888,
      "step": 34930
    },
    {
      "epoch": 18.309748427672957,
      "grad_norm": 0.11216545850038528,
      "learning_rate": 2.1612890267854624e-05,
      "loss": 0.387,
      "num_input_tokens_seen": 22855672,
      "step": 34935
    },
    {
      "epoch": 18.31236897274633,
      "grad_norm": 0.10536403208971024,
      "learning_rate": 2.1546431250242914e-05,
      "loss": 0.4668,
      "num_input_tokens_seen": 22859032,
      "step": 34940
    },
    {
      "epoch": 18.314989517819708,
      "grad_norm": 0.1903175413608551,
      "learning_rate": 2.1480072319659427e-05,
      "loss": 0.3649,
      "num_input_tokens_seen": 22863160,
      "step": 34945
    },
    {
      "epoch": 18.31761006289308,
      "grad_norm": 0.14406396448612213,
      "learning_rate": 2.1413813489985447e-05,
      "loss": 0.4271,
      "num_input_tokens_seen": 22866104,
      "step": 34950
    },
    {
      "epoch": 18.320230607966458,
      "grad_norm": 0.20376324653625488,
      "learning_rate": 2.1347654775081716e-05,
      "loss": 0.4382,
      "num_input_tokens_seen": 22869112,
      "step": 34955
    },
    {
      "epoch": 18.32285115303983,
      "grad_norm": 0.2206713855266571,
      "learning_rate": 2.1281596188787834e-05,
      "loss": 0.3555,
      "num_input_tokens_seen": 22872184,
      "step": 34960
    },
    {
      "epoch": 18.32547169811321,
      "grad_norm": 0.15223826467990875,
      "learning_rate": 2.121563774492252e-05,
      "loss": 0.3945,
      "num_input_tokens_seen": 22876376,
      "step": 34965
    },
    {
      "epoch": 18.328092243186582,
      "grad_norm": 0.18927650153636932,
      "learning_rate": 2.114977945728358e-05,
      "loss": 0.3718,
      "num_input_tokens_seen": 22879640,
      "step": 34970
    },
    {
      "epoch": 18.33071278825996,
      "grad_norm": 0.16364675760269165,
      "learning_rate": 2.1084021339647707e-05,
      "loss": 0.5036,
      "num_input_tokens_seen": 22883832,
      "step": 34975
    },
    {
      "epoch": 18.333333333333332,
      "grad_norm": 0.18967099487781525,
      "learning_rate": 2.1018363405770792e-05,
      "loss": 0.3812,
      "num_input_tokens_seen": 22886328,
      "step": 34980
    },
    {
      "epoch": 18.33595387840671,
      "grad_norm": 0.12454605847597122,
      "learning_rate": 2.095280566938784e-05,
      "loss": 0.4535,
      "num_input_tokens_seen": 22889080,
      "step": 34985
    },
    {
      "epoch": 18.338574423480082,
      "grad_norm": 0.17626871168613434,
      "learning_rate": 2.0887348144212615e-05,
      "loss": 0.439,
      "num_input_tokens_seen": 22891576,
      "step": 34990
    },
    {
      "epoch": 18.34119496855346,
      "grad_norm": 0.2004481852054596,
      "learning_rate": 2.08219908439381e-05,
      "loss": 0.6457,
      "num_input_tokens_seen": 22894808,
      "step": 34995
    },
    {
      "epoch": 18.343815513626833,
      "grad_norm": 0.2705777585506439,
      "learning_rate": 2.075673378223647e-05,
      "loss": 0.4256,
      "num_input_tokens_seen": 22897912,
      "step": 35000
    },
    {
      "epoch": 18.34643605870021,
      "grad_norm": 0.27656859159469604,
      "learning_rate": 2.069157697275853e-05,
      "loss": 0.4693,
      "num_input_tokens_seen": 22900824,
      "step": 35005
    },
    {
      "epoch": 18.349056603773583,
      "grad_norm": 0.13862863183021545,
      "learning_rate": 2.0626520429134543e-05,
      "loss": 0.4746,
      "num_input_tokens_seen": 22903864,
      "step": 35010
    },
    {
      "epoch": 18.35167714884696,
      "grad_norm": 0.2223605364561081,
      "learning_rate": 2.0561564164973458e-05,
      "loss": 0.3478,
      "num_input_tokens_seen": 22906744,
      "step": 35015
    },
    {
      "epoch": 18.354297693920337,
      "grad_norm": 0.10847760736942291,
      "learning_rate": 2.04967081938634e-05,
      "loss": 0.4365,
      "num_input_tokens_seen": 22910904,
      "step": 35020
    },
    {
      "epoch": 18.35691823899371,
      "grad_norm": 0.12850640714168549,
      "learning_rate": 2.043195252937152e-05,
      "loss": 0.4338,
      "num_input_tokens_seen": 22914072,
      "step": 35025
    },
    {
      "epoch": 18.359538784067087,
      "grad_norm": 0.10788819193840027,
      "learning_rate": 2.0367297185044043e-05,
      "loss": 0.3738,
      "num_input_tokens_seen": 22916856,
      "step": 35030
    },
    {
      "epoch": 18.36215932914046,
      "grad_norm": 0.3251042366027832,
      "learning_rate": 2.030274217440603e-05,
      "loss": 0.3795,
      "num_input_tokens_seen": 22922008,
      "step": 35035
    },
    {
      "epoch": 18.364779874213838,
      "grad_norm": 0.1794133335351944,
      "learning_rate": 2.0238287510961628e-05,
      "loss": 0.4502,
      "num_input_tokens_seen": 22924760,
      "step": 35040
    },
    {
      "epoch": 18.36740041928721,
      "grad_norm": 0.15012598037719727,
      "learning_rate": 2.017393320819405e-05,
      "loss": 0.4819,
      "num_input_tokens_seen": 22927416,
      "step": 35045
    },
    {
      "epoch": 18.370020964360588,
      "grad_norm": 0.13054150342941284,
      "learning_rate": 2.010967927956553e-05,
      "loss": 0.483,
      "num_input_tokens_seen": 22930200,
      "step": 35050
    },
    {
      "epoch": 18.37264150943396,
      "grad_norm": 0.2109096348285675,
      "learning_rate": 2.00455257385172e-05,
      "loss": 0.4683,
      "num_input_tokens_seen": 22933592,
      "step": 35055
    },
    {
      "epoch": 18.37526205450734,
      "grad_norm": 0.14479045569896698,
      "learning_rate": 1.9981472598469386e-05,
      "loss": 0.3595,
      "num_input_tokens_seen": 22936312,
      "step": 35060
    },
    {
      "epoch": 18.377882599580712,
      "grad_norm": 0.14049342274665833,
      "learning_rate": 1.9917519872821142e-05,
      "loss": 0.4209,
      "num_input_tokens_seen": 22939352,
      "step": 35065
    },
    {
      "epoch": 18.38050314465409,
      "grad_norm": 0.19132986664772034,
      "learning_rate": 1.9853667574950605e-05,
      "loss": 0.5189,
      "num_input_tokens_seen": 22942552,
      "step": 35070
    },
    {
      "epoch": 18.383123689727462,
      "grad_norm": 0.15610063076019287,
      "learning_rate": 1.978991571821498e-05,
      "loss": 0.3588,
      "num_input_tokens_seen": 22945592,
      "step": 35075
    },
    {
      "epoch": 18.38574423480084,
      "grad_norm": 0.1886720359325409,
      "learning_rate": 1.972626431595048e-05,
      "loss": 0.3812,
      "num_input_tokens_seen": 22948280,
      "step": 35080
    },
    {
      "epoch": 18.388364779874212,
      "grad_norm": 0.13365495204925537,
      "learning_rate": 1.9662713381472295e-05,
      "loss": 0.4536,
      "num_input_tokens_seen": 22951512,
      "step": 35085
    },
    {
      "epoch": 18.39098532494759,
      "grad_norm": 0.1255669891834259,
      "learning_rate": 1.959926292807451e-05,
      "loss": 0.4937,
      "num_input_tokens_seen": 22954904,
      "step": 35090
    },
    {
      "epoch": 18.393605870020963,
      "grad_norm": 0.0996471494436264,
      "learning_rate": 1.9535912969030178e-05,
      "loss": 0.3711,
      "num_input_tokens_seen": 22958136,
      "step": 35095
    },
    {
      "epoch": 18.39622641509434,
      "grad_norm": 0.3579529821872711,
      "learning_rate": 1.947266351759136e-05,
      "loss": 0.3532,
      "num_input_tokens_seen": 22961720,
      "step": 35100
    },
    {
      "epoch": 18.398846960167713,
      "grad_norm": 0.1954687237739563,
      "learning_rate": 1.940951458698925e-05,
      "loss": 0.3889,
      "num_input_tokens_seen": 22964856,
      "step": 35105
    },
    {
      "epoch": 18.40146750524109,
      "grad_norm": 0.1662541925907135,
      "learning_rate": 1.9346466190433842e-05,
      "loss": 0.4003,
      "num_input_tokens_seen": 22967864,
      "step": 35110
    },
    {
      "epoch": 18.404088050314467,
      "grad_norm": 0.10413774847984314,
      "learning_rate": 1.9283518341114136e-05,
      "loss": 0.4156,
      "num_input_tokens_seen": 22971704,
      "step": 35115
    },
    {
      "epoch": 18.40670859538784,
      "grad_norm": 0.1689881533384323,
      "learning_rate": 1.9220671052198047e-05,
      "loss": 0.4573,
      "num_input_tokens_seen": 22975384,
      "step": 35120
    },
    {
      "epoch": 18.409329140461217,
      "grad_norm": 0.0997290313243866,
      "learning_rate": 1.9157924336832556e-05,
      "loss": 0.3896,
      "num_input_tokens_seen": 22978488,
      "step": 35125
    },
    {
      "epoch": 18.41194968553459,
      "grad_norm": 0.15944276750087738,
      "learning_rate": 1.909527820814355e-05,
      "loss": 0.5306,
      "num_input_tokens_seen": 22982136,
      "step": 35130
    },
    {
      "epoch": 18.414570230607968,
      "grad_norm": 0.13634593784809113,
      "learning_rate": 1.9032732679235886e-05,
      "loss": 0.4855,
      "num_input_tokens_seen": 22984440,
      "step": 35135
    },
    {
      "epoch": 18.41719077568134,
      "grad_norm": 0.11887910962104797,
      "learning_rate": 1.8970287763193428e-05,
      "loss": 0.4207,
      "num_input_tokens_seen": 22987800,
      "step": 35140
    },
    {
      "epoch": 18.419811320754718,
      "grad_norm": 0.15664279460906982,
      "learning_rate": 1.8907943473078892e-05,
      "loss": 0.4914,
      "num_input_tokens_seen": 22990584,
      "step": 35145
    },
    {
      "epoch": 18.42243186582809,
      "grad_norm": 0.17621979117393494,
      "learning_rate": 1.884569982193396e-05,
      "loss": 0.3827,
      "num_input_tokens_seen": 22994008,
      "step": 35150
    },
    {
      "epoch": 18.42505241090147,
      "grad_norm": 0.19576026499271393,
      "learning_rate": 1.8783556822779267e-05,
      "loss": 0.464,
      "num_input_tokens_seen": 22998136,
      "step": 35155
    },
    {
      "epoch": 18.427672955974842,
      "grad_norm": 0.18136796355247498,
      "learning_rate": 1.8721514488614532e-05,
      "loss": 0.3402,
      "num_input_tokens_seen": 23000568,
      "step": 35160
    },
    {
      "epoch": 18.43029350104822,
      "grad_norm": 0.1543373465538025,
      "learning_rate": 1.8659572832418315e-05,
      "loss": 0.3893,
      "num_input_tokens_seen": 23004056,
      "step": 35165
    },
    {
      "epoch": 18.432914046121592,
      "grad_norm": 0.130003422498703,
      "learning_rate": 1.8597731867148026e-05,
      "loss": 0.5403,
      "num_input_tokens_seen": 23007640,
      "step": 35170
    },
    {
      "epoch": 18.43553459119497,
      "grad_norm": 0.12959161400794983,
      "learning_rate": 1.8535991605740043e-05,
      "loss": 0.3827,
      "num_input_tokens_seen": 23010488,
      "step": 35175
    },
    {
      "epoch": 18.438155136268342,
      "grad_norm": 0.17139309644699097,
      "learning_rate": 1.8474352061109757e-05,
      "loss": 0.405,
      "num_input_tokens_seen": 23014552,
      "step": 35180
    },
    {
      "epoch": 18.44077568134172,
      "grad_norm": 0.15408189594745636,
      "learning_rate": 1.8412813246151515e-05,
      "loss": 0.5225,
      "num_input_tokens_seen": 23018840,
      "step": 35185
    },
    {
      "epoch": 18.443396226415093,
      "grad_norm": 0.15994593501091003,
      "learning_rate": 1.8351375173738584e-05,
      "loss": 0.6348,
      "num_input_tokens_seen": 23022520,
      "step": 35190
    },
    {
      "epoch": 18.44601677148847,
      "grad_norm": 0.09978806227445602,
      "learning_rate": 1.829003785672295e-05,
      "loss": 0.5695,
      "num_input_tokens_seen": 23026104,
      "step": 35195
    },
    {
      "epoch": 18.448637316561843,
      "grad_norm": 0.10145919024944305,
      "learning_rate": 1.8228801307935806e-05,
      "loss": 0.5842,
      "num_input_tokens_seen": 23030296,
      "step": 35200
    },
    {
      "epoch": 18.45125786163522,
      "grad_norm": 0.16523507237434387,
      "learning_rate": 1.8167665540187063e-05,
      "loss": 0.4546,
      "num_input_tokens_seen": 23033944,
      "step": 35205
    },
    {
      "epoch": 18.453878406708597,
      "grad_norm": 0.13939498364925385,
      "learning_rate": 1.8106630566265604e-05,
      "loss": 0.5603,
      "num_input_tokens_seen": 23037912,
      "step": 35210
    },
    {
      "epoch": 18.45649895178197,
      "grad_norm": 0.25841453671455383,
      "learning_rate": 1.8045696398939326e-05,
      "loss": 0.5914,
      "num_input_tokens_seen": 23041048,
      "step": 35215
    },
    {
      "epoch": 18.459119496855347,
      "grad_norm": 0.29137492179870605,
      "learning_rate": 1.7984863050955036e-05,
      "loss": 0.3988,
      "num_input_tokens_seen": 23043992,
      "step": 35220
    },
    {
      "epoch": 18.46174004192872,
      "grad_norm": 0.1566346436738968,
      "learning_rate": 1.7924130535038162e-05,
      "loss": 0.5084,
      "num_input_tokens_seen": 23047352,
      "step": 35225
    },
    {
      "epoch": 18.464360587002098,
      "grad_norm": 0.11401397734880447,
      "learning_rate": 1.7863498863893433e-05,
      "loss": 0.5831,
      "num_input_tokens_seen": 23050488,
      "step": 35230
    },
    {
      "epoch": 18.46698113207547,
      "grad_norm": 0.17475296556949615,
      "learning_rate": 1.7802968050204203e-05,
      "loss": 0.4888,
      "num_input_tokens_seen": 23053496,
      "step": 35235
    },
    {
      "epoch": 18.469601677148848,
      "grad_norm": 0.11819609254598618,
      "learning_rate": 1.7742538106632844e-05,
      "loss": 0.397,
      "num_input_tokens_seen": 23056760,
      "step": 35240
    },
    {
      "epoch": 18.47222222222222,
      "grad_norm": 0.15527760982513428,
      "learning_rate": 1.7682209045820684e-05,
      "loss": 0.466,
      "num_input_tokens_seen": 23060152,
      "step": 35245
    },
    {
      "epoch": 18.4748427672956,
      "grad_norm": 0.20089130103588104,
      "learning_rate": 1.76219808803878e-05,
      "loss": 0.4293,
      "num_input_tokens_seen": 23063448,
      "step": 35250
    },
    {
      "epoch": 18.47746331236897,
      "grad_norm": 0.12114634364843369,
      "learning_rate": 1.7561853622933278e-05,
      "loss": 0.4219,
      "num_input_tokens_seen": 23066776,
      "step": 35255
    },
    {
      "epoch": 18.48008385744235,
      "grad_norm": 0.23151354491710663,
      "learning_rate": 1.7501827286035e-05,
      "loss": 0.5001,
      "num_input_tokens_seen": 23069784,
      "step": 35260
    },
    {
      "epoch": 18.482704402515722,
      "grad_norm": 0.15112479031085968,
      "learning_rate": 1.7441901882249754e-05,
      "loss": 0.4828,
      "num_input_tokens_seen": 23072920,
      "step": 35265
    },
    {
      "epoch": 18.4853249475891,
      "grad_norm": 0.1251121461391449,
      "learning_rate": 1.7382077424113464e-05,
      "loss": 0.4681,
      "num_input_tokens_seen": 23076408,
      "step": 35270
    },
    {
      "epoch": 18.487945492662472,
      "grad_norm": 0.19447731971740723,
      "learning_rate": 1.7322353924140498e-05,
      "loss": 0.5066,
      "num_input_tokens_seen": 23079256,
      "step": 35275
    },
    {
      "epoch": 18.49056603773585,
      "grad_norm": 0.2007153481245041,
      "learning_rate": 1.7262731394824372e-05,
      "loss": 0.3694,
      "num_input_tokens_seen": 23082488,
      "step": 35280
    },
    {
      "epoch": 18.493186582809223,
      "grad_norm": 0.11901010572910309,
      "learning_rate": 1.7203209848637603e-05,
      "loss": 0.4238,
      "num_input_tokens_seen": 23089176,
      "step": 35285
    },
    {
      "epoch": 18.4958071278826,
      "grad_norm": 0.29843077063560486,
      "learning_rate": 1.7143789298031175e-05,
      "loss": 0.4052,
      "num_input_tokens_seen": 23091928,
      "step": 35290
    },
    {
      "epoch": 18.498427672955973,
      "grad_norm": 0.12161094695329666,
      "learning_rate": 1.708446975543537e-05,
      "loss": 0.4012,
      "num_input_tokens_seen": 23095064,
      "step": 35295
    },
    {
      "epoch": 18.50104821802935,
      "grad_norm": 0.18814681470394135,
      "learning_rate": 1.7025251233259098e-05,
      "loss": 0.3959,
      "num_input_tokens_seen": 23098616,
      "step": 35300
    },
    {
      "epoch": 18.503668763102727,
      "grad_norm": 0.26564180850982666,
      "learning_rate": 1.6966133743890166e-05,
      "loss": 0.4416,
      "num_input_tokens_seen": 23101784,
      "step": 35305
    },
    {
      "epoch": 18.5062893081761,
      "grad_norm": 0.1461697518825531,
      "learning_rate": 1.690711729969535e-05,
      "loss": 0.3082,
      "num_input_tokens_seen": 23105816,
      "step": 35310
    },
    {
      "epoch": 18.508909853249477,
      "grad_norm": 0.14679881930351257,
      "learning_rate": 1.684820191302022e-05,
      "loss": 0.2812,
      "num_input_tokens_seen": 23110232,
      "step": 35315
    },
    {
      "epoch": 18.51153039832285,
      "grad_norm": 0.1921381950378418,
      "learning_rate": 1.6789387596189087e-05,
      "loss": 0.354,
      "num_input_tokens_seen": 23113624,
      "step": 35320
    },
    {
      "epoch": 18.514150943396228,
      "grad_norm": 0.4332032799720764,
      "learning_rate": 1.6730674361505382e-05,
      "loss": 0.3815,
      "num_input_tokens_seen": 23117176,
      "step": 35325
    },
    {
      "epoch": 18.5167714884696,
      "grad_norm": 0.09320216625928879,
      "learning_rate": 1.6672062221251117e-05,
      "loss": 0.4134,
      "num_input_tokens_seen": 23120472,
      "step": 35330
    },
    {
      "epoch": 18.519392033542978,
      "grad_norm": 0.17286308109760284,
      "learning_rate": 1.6613551187687314e-05,
      "loss": 0.387,
      "num_input_tokens_seen": 23124344,
      "step": 35335
    },
    {
      "epoch": 18.52201257861635,
      "grad_norm": 0.12007323652505875,
      "learning_rate": 1.6555141273053907e-05,
      "loss": 0.4673,
      "num_input_tokens_seen": 23127608,
      "step": 35340
    },
    {
      "epoch": 18.52463312368973,
      "grad_norm": 0.1456335484981537,
      "learning_rate": 1.6496832489569457e-05,
      "loss": 0.4486,
      "num_input_tokens_seen": 23130552,
      "step": 35345
    },
    {
      "epoch": 18.5272536687631,
      "grad_norm": 0.11883673071861267,
      "learning_rate": 1.643862484943165e-05,
      "loss": 0.4999,
      "num_input_tokens_seen": 23133784,
      "step": 35350
    },
    {
      "epoch": 18.52987421383648,
      "grad_norm": 0.16920965909957886,
      "learning_rate": 1.6380518364816687e-05,
      "loss": 0.4733,
      "num_input_tokens_seen": 23138072,
      "step": 35355
    },
    {
      "epoch": 18.532494758909852,
      "grad_norm": 0.13391633331775665,
      "learning_rate": 1.632251304787985e-05,
      "loss": 0.4238,
      "num_input_tokens_seen": 23141080,
      "step": 35360
    },
    {
      "epoch": 18.53511530398323,
      "grad_norm": 0.20650926232337952,
      "learning_rate": 1.6264608910755153e-05,
      "loss": 0.5415,
      "num_input_tokens_seen": 23143960,
      "step": 35365
    },
    {
      "epoch": 18.537735849056602,
      "grad_norm": 0.13430771231651306,
      "learning_rate": 1.6206805965555627e-05,
      "loss": 0.4948,
      "num_input_tokens_seen": 23147608,
      "step": 35370
    },
    {
      "epoch": 18.54035639412998,
      "grad_norm": 0.10126621276140213,
      "learning_rate": 1.614910422437288e-05,
      "loss": 0.4417,
      "num_input_tokens_seen": 23150872,
      "step": 35375
    },
    {
      "epoch": 18.542976939203353,
      "grad_norm": 0.1492018848657608,
      "learning_rate": 1.6091503699277477e-05,
      "loss": 0.4733,
      "num_input_tokens_seen": 23153656,
      "step": 35380
    },
    {
      "epoch": 18.54559748427673,
      "grad_norm": 0.10791637748479843,
      "learning_rate": 1.6034004402318726e-05,
      "loss": 0.3358,
      "num_input_tokens_seen": 23157176,
      "step": 35385
    },
    {
      "epoch": 18.548218029350103,
      "grad_norm": 0.16446933150291443,
      "learning_rate": 1.5976606345524836e-05,
      "loss": 0.3648,
      "num_input_tokens_seen": 23160280,
      "step": 35390
    },
    {
      "epoch": 18.55083857442348,
      "grad_norm": 0.10409419983625412,
      "learning_rate": 1.5919309540902927e-05,
      "loss": 0.294,
      "num_input_tokens_seen": 23166552,
      "step": 35395
    },
    {
      "epoch": 18.553459119496857,
      "grad_norm": 0.1692260354757309,
      "learning_rate": 1.5862114000438797e-05,
      "loss": 0.3694,
      "num_input_tokens_seen": 23170008,
      "step": 35400
    },
    {
      "epoch": 18.55607966457023,
      "grad_norm": 0.17431676387786865,
      "learning_rate": 1.5805019736097104e-05,
      "loss": 0.4585,
      "num_input_tokens_seen": 23173336,
      "step": 35405
    },
    {
      "epoch": 18.558700209643607,
      "grad_norm": 0.23747481405735016,
      "learning_rate": 1.5748026759821232e-05,
      "loss": 0.5031,
      "num_input_tokens_seen": 23177336,
      "step": 35410
    },
    {
      "epoch": 18.56132075471698,
      "grad_norm": 0.09059015661478043,
      "learning_rate": 1.5691135083533537e-05,
      "loss": 0.4595,
      "num_input_tokens_seen": 23180632,
      "step": 35415
    },
    {
      "epoch": 18.563941299790358,
      "grad_norm": 0.18645533919334412,
      "learning_rate": 1.5634344719135052e-05,
      "loss": 0.4546,
      "num_input_tokens_seen": 23183192,
      "step": 35420
    },
    {
      "epoch": 18.56656184486373,
      "grad_norm": 0.09760649502277374,
      "learning_rate": 1.5577655678505776e-05,
      "loss": 0.3534,
      "num_input_tokens_seen": 23185912,
      "step": 35425
    },
    {
      "epoch": 18.569182389937108,
      "grad_norm": 0.21991382539272308,
      "learning_rate": 1.5521067973504442e-05,
      "loss": 0.5791,
      "num_input_tokens_seen": 23189368,
      "step": 35430
    },
    {
      "epoch": 18.57180293501048,
      "grad_norm": 0.10735785216093063,
      "learning_rate": 1.546458161596831e-05,
      "loss": 0.4086,
      "num_input_tokens_seen": 23192728,
      "step": 35435
    },
    {
      "epoch": 18.57442348008386,
      "grad_norm": 0.09056732058525085,
      "learning_rate": 1.5408196617713866e-05,
      "loss": 0.4776,
      "num_input_tokens_seen": 23195640,
      "step": 35440
    },
    {
      "epoch": 18.57704402515723,
      "grad_norm": 0.17556163668632507,
      "learning_rate": 1.5351912990536175e-05,
      "loss": 0.5672,
      "num_input_tokens_seen": 23198200,
      "step": 35445
    },
    {
      "epoch": 18.57966457023061,
      "grad_norm": 0.1693703681230545,
      "learning_rate": 1.5295730746209103e-05,
      "loss": 0.3803,
      "num_input_tokens_seen": 23200760,
      "step": 35450
    },
    {
      "epoch": 18.582285115303982,
      "grad_norm": 0.12261118739843369,
      "learning_rate": 1.5239649896485463e-05,
      "loss": 0.3989,
      "num_input_tokens_seen": 23204280,
      "step": 35455
    },
    {
      "epoch": 18.58490566037736,
      "grad_norm": 0.2749221920967102,
      "learning_rate": 1.5183670453096598e-05,
      "loss": 0.5431,
      "num_input_tokens_seen": 23207800,
      "step": 35460
    },
    {
      "epoch": 18.587526205450732,
      "grad_norm": 0.10868997126817703,
      "learning_rate": 1.5127792427752696e-05,
      "loss": 0.3918,
      "num_input_tokens_seen": 23210648,
      "step": 35465
    },
    {
      "epoch": 18.59014675052411,
      "grad_norm": 0.14767467975616455,
      "learning_rate": 1.507201583214296e-05,
      "loss": 0.3177,
      "num_input_tokens_seen": 23213752,
      "step": 35470
    },
    {
      "epoch": 18.592767295597483,
      "grad_norm": 0.10302764922380447,
      "learning_rate": 1.5016340677935169e-05,
      "loss": 0.3402,
      "num_input_tokens_seen": 23216408,
      "step": 35475
    },
    {
      "epoch": 18.59538784067086,
      "grad_norm": 0.15247675776481628,
      "learning_rate": 1.4960766976775953e-05,
      "loss": 0.4092,
      "num_input_tokens_seen": 23219480,
      "step": 35480
    },
    {
      "epoch": 18.598008385744233,
      "grad_norm": 0.17789992690086365,
      "learning_rate": 1.4905294740290677e-05,
      "loss": 0.51,
      "num_input_tokens_seen": 23222872,
      "step": 35485
    },
    {
      "epoch": 18.60062893081761,
      "grad_norm": 0.1838308721780777,
      "learning_rate": 1.4849923980083391e-05,
      "loss": 0.5496,
      "num_input_tokens_seen": 23226584,
      "step": 35490
    },
    {
      "epoch": 18.603249475890987,
      "grad_norm": 0.13416455686092377,
      "learning_rate": 1.4794654707737164e-05,
      "loss": 0.4428,
      "num_input_tokens_seen": 23229112,
      "step": 35495
    },
    {
      "epoch": 18.60587002096436,
      "grad_norm": 0.09971807897090912,
      "learning_rate": 1.4739486934813696e-05,
      "loss": 0.3181,
      "num_input_tokens_seen": 23231800,
      "step": 35500
    },
    {
      "epoch": 18.608490566037737,
      "grad_norm": 0.19258390367031097,
      "learning_rate": 1.468442067285336e-05,
      "loss": 0.3873,
      "num_input_tokens_seen": 23235192,
      "step": 35505
    },
    {
      "epoch": 18.61111111111111,
      "grad_norm": 0.2347625494003296,
      "learning_rate": 1.4629455933375501e-05,
      "loss": 0.4283,
      "num_input_tokens_seen": 23238008,
      "step": 35510
    },
    {
      "epoch": 18.613731656184488,
      "grad_norm": 0.17971190810203552,
      "learning_rate": 1.4574592727878089e-05,
      "loss": 0.4901,
      "num_input_tokens_seen": 23240536,
      "step": 35515
    },
    {
      "epoch": 18.61635220125786,
      "grad_norm": 0.14051185548305511,
      "learning_rate": 1.4519831067837774e-05,
      "loss": 0.5599,
      "num_input_tokens_seen": 23243576,
      "step": 35520
    },
    {
      "epoch": 18.618972746331238,
      "grad_norm": 0.15817245841026306,
      "learning_rate": 1.4465170964710172e-05,
      "loss": 0.4452,
      "num_input_tokens_seen": 23247256,
      "step": 35525
    },
    {
      "epoch": 18.62159329140461,
      "grad_norm": 0.10830623656511307,
      "learning_rate": 1.441061242992947e-05,
      "loss": 0.3389,
      "num_input_tokens_seen": 23250456,
      "step": 35530
    },
    {
      "epoch": 18.62421383647799,
      "grad_norm": 0.08287940174341202,
      "learning_rate": 1.4356155474908871e-05,
      "loss": 0.4119,
      "num_input_tokens_seen": 23253272,
      "step": 35535
    },
    {
      "epoch": 18.62683438155136,
      "grad_norm": 0.1236029714345932,
      "learning_rate": 1.4301800111039986e-05,
      "loss": 0.4607,
      "num_input_tokens_seen": 23256824,
      "step": 35540
    },
    {
      "epoch": 18.62945492662474,
      "grad_norm": 0.18912801146507263,
      "learning_rate": 1.4247546349693386e-05,
      "loss": 0.5612,
      "num_input_tokens_seen": 23261048,
      "step": 35545
    },
    {
      "epoch": 18.632075471698112,
      "grad_norm": 0.195734441280365,
      "learning_rate": 1.4193394202218268e-05,
      "loss": 0.4612,
      "num_input_tokens_seen": 23264216,
      "step": 35550
    },
    {
      "epoch": 18.63469601677149,
      "grad_norm": 0.14449143409729004,
      "learning_rate": 1.413934367994274e-05,
      "loss": 0.4151,
      "num_input_tokens_seen": 23267448,
      "step": 35555
    },
    {
      "epoch": 18.637316561844862,
      "grad_norm": 0.158047616481781,
      "learning_rate": 1.408539479417359e-05,
      "loss": 0.4321,
      "num_input_tokens_seen": 23271448,
      "step": 35560
    },
    {
      "epoch": 18.63993710691824,
      "grad_norm": 0.2215566337108612,
      "learning_rate": 1.4031547556196178e-05,
      "loss": 0.4865,
      "num_input_tokens_seen": 23274296,
      "step": 35565
    },
    {
      "epoch": 18.642557651991613,
      "grad_norm": 0.3777661621570587,
      "learning_rate": 1.3977801977274828e-05,
      "loss": 0.3905,
      "num_input_tokens_seen": 23276664,
      "step": 35570
    },
    {
      "epoch": 18.64517819706499,
      "grad_norm": 0.10125754773616791,
      "learning_rate": 1.3924158068652437e-05,
      "loss": 0.409,
      "num_input_tokens_seen": 23280632,
      "step": 35575
    },
    {
      "epoch": 18.647798742138363,
      "grad_norm": 0.18404048681259155,
      "learning_rate": 1.3870615841550693e-05,
      "loss": 0.3024,
      "num_input_tokens_seen": 23285624,
      "step": 35580
    },
    {
      "epoch": 18.65041928721174,
      "grad_norm": 0.15682139992713928,
      "learning_rate": 1.3817175307170138e-05,
      "loss": 0.3825,
      "num_input_tokens_seen": 23288632,
      "step": 35585
    },
    {
      "epoch": 18.653039832285117,
      "grad_norm": 0.12040524929761887,
      "learning_rate": 1.3763836476689828e-05,
      "loss": 0.4308,
      "num_input_tokens_seen": 23291800,
      "step": 35590
    },
    {
      "epoch": 18.65566037735849,
      "grad_norm": 0.10836305469274521,
      "learning_rate": 1.3710599361267617e-05,
      "loss": 0.4241,
      "num_input_tokens_seen": 23296088,
      "step": 35595
    },
    {
      "epoch": 18.658280922431867,
      "grad_norm": 0.14476418495178223,
      "learning_rate": 1.3657463972040207e-05,
      "loss": 0.3811,
      "num_input_tokens_seen": 23299096,
      "step": 35600
    },
    {
      "epoch": 18.66090146750524,
      "grad_norm": 0.1083085909485817,
      "learning_rate": 1.3604430320122762e-05,
      "loss": 0.4756,
      "num_input_tokens_seen": 23301624,
      "step": 35605
    },
    {
      "epoch": 18.663522012578618,
      "grad_norm": 0.1206921711564064,
      "learning_rate": 1.355149841660941e-05,
      "loss": 0.5143,
      "num_input_tokens_seen": 23305240,
      "step": 35610
    },
    {
      "epoch": 18.66614255765199,
      "grad_norm": 0.20221476256847382,
      "learning_rate": 1.3498668272572955e-05,
      "loss": 0.4021,
      "num_input_tokens_seen": 23308344,
      "step": 35615
    },
    {
      "epoch": 18.668763102725368,
      "grad_norm": 0.12397084385156631,
      "learning_rate": 1.3445939899064729e-05,
      "loss": 0.4991,
      "num_input_tokens_seen": 23313272,
      "step": 35620
    },
    {
      "epoch": 18.67138364779874,
      "grad_norm": 0.193191796541214,
      "learning_rate": 1.3393313307115019e-05,
      "loss": 0.5133,
      "num_input_tokens_seen": 23316088,
      "step": 35625
    },
    {
      "epoch": 18.67400419287212,
      "grad_norm": 0.16183145344257355,
      "learning_rate": 1.3340788507732626e-05,
      "loss": 0.4133,
      "num_input_tokens_seen": 23320312,
      "step": 35630
    },
    {
      "epoch": 18.67662473794549,
      "grad_norm": 0.3525063693523407,
      "learning_rate": 1.328836551190521e-05,
      "loss": 0.3845,
      "num_input_tokens_seen": 23322936,
      "step": 35635
    },
    {
      "epoch": 18.67924528301887,
      "grad_norm": 0.16328001022338867,
      "learning_rate": 1.323604433059905e-05,
      "loss": 0.5302,
      "num_input_tokens_seen": 23326968,
      "step": 35640
    },
    {
      "epoch": 18.681865828092242,
      "grad_norm": 0.23554746806621552,
      "learning_rate": 1.3183824974759063e-05,
      "loss": 0.4454,
      "num_input_tokens_seen": 23330264,
      "step": 35645
    },
    {
      "epoch": 18.68448637316562,
      "grad_norm": 0.15509457886219025,
      "learning_rate": 1.3131707455309006e-05,
      "loss": 0.3723,
      "num_input_tokens_seen": 23333912,
      "step": 35650
    },
    {
      "epoch": 18.687106918238992,
      "grad_norm": 0.26651328802108765,
      "learning_rate": 1.307969178315127e-05,
      "loss": 0.3456,
      "num_input_tokens_seen": 23336920,
      "step": 35655
    },
    {
      "epoch": 18.68972746331237,
      "grad_norm": 0.14785178005695343,
      "learning_rate": 1.3027777969166932e-05,
      "loss": 0.4793,
      "num_input_tokens_seen": 23339800,
      "step": 35660
    },
    {
      "epoch": 18.692348008385743,
      "grad_norm": 0.17861372232437134,
      "learning_rate": 1.2975966024215746e-05,
      "loss": 0.3957,
      "num_input_tokens_seen": 23343608,
      "step": 35665
    },
    {
      "epoch": 18.69496855345912,
      "grad_norm": 0.16376298666000366,
      "learning_rate": 1.2924255959136267e-05,
      "loss": 0.466,
      "num_input_tokens_seen": 23346456,
      "step": 35670
    },
    {
      "epoch": 18.697589098532493,
      "grad_norm": 0.12063156813383102,
      "learning_rate": 1.2872647784745561e-05,
      "loss": 0.4335,
      "num_input_tokens_seen": 23349336,
      "step": 35675
    },
    {
      "epoch": 18.70020964360587,
      "grad_norm": 0.14326941967010498,
      "learning_rate": 1.282114151183944e-05,
      "loss": 0.3578,
      "num_input_tokens_seen": 23352344,
      "step": 35680
    },
    {
      "epoch": 18.702830188679247,
      "grad_norm": 0.09423499554395676,
      "learning_rate": 1.2769737151192562e-05,
      "loss": 0.3422,
      "num_input_tokens_seen": 23355064,
      "step": 35685
    },
    {
      "epoch": 18.70545073375262,
      "grad_norm": 0.1803419589996338,
      "learning_rate": 1.2718434713558047e-05,
      "loss": 0.4259,
      "num_input_tokens_seen": 23358680,
      "step": 35690
    },
    {
      "epoch": 18.708071278825997,
      "grad_norm": 0.212682843208313,
      "learning_rate": 1.2667234209667755e-05,
      "loss": 0.3623,
      "num_input_tokens_seen": 23361496,
      "step": 35695
    },
    {
      "epoch": 18.71069182389937,
      "grad_norm": 0.18902577459812164,
      "learning_rate": 1.2616135650232286e-05,
      "loss": 0.5213,
      "num_input_tokens_seen": 23366264,
      "step": 35700
    },
    {
      "epoch": 18.713312368972748,
      "grad_norm": 0.21009834110736847,
      "learning_rate": 1.2565139045940866e-05,
      "loss": 0.4146,
      "num_input_tokens_seen": 23368888,
      "step": 35705
    },
    {
      "epoch": 18.71593291404612,
      "grad_norm": 0.0856909304857254,
      "learning_rate": 1.2514244407461462e-05,
      "loss": 0.3801,
      "num_input_tokens_seen": 23372216,
      "step": 35710
    },
    {
      "epoch": 18.718553459119498,
      "grad_norm": 0.10020720213651657,
      "learning_rate": 1.2463451745440501e-05,
      "loss": 0.4377,
      "num_input_tokens_seen": 23376248,
      "step": 35715
    },
    {
      "epoch": 18.72117400419287,
      "grad_norm": 0.08259805291891098,
      "learning_rate": 1.241276107050343e-05,
      "loss": 0.4289,
      "num_input_tokens_seen": 23379544,
      "step": 35720
    },
    {
      "epoch": 18.72379454926625,
      "grad_norm": 0.11321882903575897,
      "learning_rate": 1.236217239325399e-05,
      "loss": 0.5225,
      "num_input_tokens_seen": 23383576,
      "step": 35725
    },
    {
      "epoch": 18.72641509433962,
      "grad_norm": 0.08425821363925934,
      "learning_rate": 1.2311685724274768e-05,
      "loss": 0.5561,
      "num_input_tokens_seen": 23387352,
      "step": 35730
    },
    {
      "epoch": 18.729035639413,
      "grad_norm": 0.15324676036834717,
      "learning_rate": 1.2261301074127096e-05,
      "loss": 0.3059,
      "num_input_tokens_seen": 23390808,
      "step": 35735
    },
    {
      "epoch": 18.731656184486372,
      "grad_norm": 0.1452971249818802,
      "learning_rate": 1.2211018453350874e-05,
      "loss": 0.3854,
      "num_input_tokens_seen": 23393432,
      "step": 35740
    },
    {
      "epoch": 18.73427672955975,
      "grad_norm": 0.10673343390226364,
      "learning_rate": 1.2160837872464581e-05,
      "loss": 0.3212,
      "num_input_tokens_seen": 23396536,
      "step": 35745
    },
    {
      "epoch": 18.736897274633122,
      "grad_norm": 0.12895171344280243,
      "learning_rate": 1.2110759341965428e-05,
      "loss": 0.2966,
      "num_input_tokens_seen": 23399416,
      "step": 35750
    },
    {
      "epoch": 18.7395178197065,
      "grad_norm": 0.17197082936763763,
      "learning_rate": 1.2060782872329256e-05,
      "loss": 0.3771,
      "num_input_tokens_seen": 23402392,
      "step": 35755
    },
    {
      "epoch": 18.742138364779873,
      "grad_norm": 0.16343650221824646,
      "learning_rate": 1.2010908474010595e-05,
      "loss": 0.354,
      "num_input_tokens_seen": 23404792,
      "step": 35760
    },
    {
      "epoch": 18.74475890985325,
      "grad_norm": 0.2155352085828781,
      "learning_rate": 1.1961136157442654e-05,
      "loss": 0.3596,
      "num_input_tokens_seen": 23408472,
      "step": 35765
    },
    {
      "epoch": 18.747379454926623,
      "grad_norm": 0.09789475798606873,
      "learning_rate": 1.1911465933037214e-05,
      "loss": 0.3949,
      "num_input_tokens_seen": 23411768,
      "step": 35770
    },
    {
      "epoch": 18.75,
      "grad_norm": 0.16750065982341766,
      "learning_rate": 1.1861897811184686e-05,
      "loss": 0.4865,
      "num_input_tokens_seen": 23415128,
      "step": 35775
    },
    {
      "epoch": 18.752620545073377,
      "grad_norm": 0.13687510788440704,
      "learning_rate": 1.1812431802254109e-05,
      "loss": 0.4243,
      "num_input_tokens_seen": 23418008,
      "step": 35780
    },
    {
      "epoch": 18.75524109014675,
      "grad_norm": 0.2919832170009613,
      "learning_rate": 1.1763067916593262e-05,
      "loss": 0.4175,
      "num_input_tokens_seen": 23420888,
      "step": 35785
    },
    {
      "epoch": 18.757861635220127,
      "grad_norm": 0.1450384259223938,
      "learning_rate": 1.1713806164528496e-05,
      "loss": 0.456,
      "num_input_tokens_seen": 23423128,
      "step": 35790
    },
    {
      "epoch": 18.7604821802935,
      "grad_norm": 0.13107863068580627,
      "learning_rate": 1.1664646556364844e-05,
      "loss": 0.4427,
      "num_input_tokens_seen": 23426136,
      "step": 35795
    },
    {
      "epoch": 18.763102725366878,
      "grad_norm": 0.145355224609375,
      "learning_rate": 1.161558910238597e-05,
      "loss": 0.4298,
      "num_input_tokens_seen": 23429144,
      "step": 35800
    },
    {
      "epoch": 18.76572327044025,
      "grad_norm": 0.17639969289302826,
      "learning_rate": 1.1566633812854e-05,
      "loss": 0.3846,
      "num_input_tokens_seen": 23432216,
      "step": 35805
    },
    {
      "epoch": 18.768343815513628,
      "grad_norm": 0.15868370234966278,
      "learning_rate": 1.151778069800985e-05,
      "loss": 0.377,
      "num_input_tokens_seen": 23435000,
      "step": 35810
    },
    {
      "epoch": 18.770964360587,
      "grad_norm": 0.2923209071159363,
      "learning_rate": 1.1469029768073125e-05,
      "loss": 0.3303,
      "num_input_tokens_seen": 23438008,
      "step": 35815
    },
    {
      "epoch": 18.77358490566038,
      "grad_norm": 0.14966337382793427,
      "learning_rate": 1.1420381033241889e-05,
      "loss": 0.5698,
      "num_input_tokens_seen": 23440504,
      "step": 35820
    },
    {
      "epoch": 18.77620545073375,
      "grad_norm": 0.22782789170742035,
      "learning_rate": 1.1371834503693002e-05,
      "loss": 0.4542,
      "num_input_tokens_seen": 23443096,
      "step": 35825
    },
    {
      "epoch": 18.77882599580713,
      "grad_norm": 0.14062552154064178,
      "learning_rate": 1.1323390189581784e-05,
      "loss": 0.4003,
      "num_input_tokens_seen": 23446392,
      "step": 35830
    },
    {
      "epoch": 18.781446540880502,
      "grad_norm": 0.1867387741804123,
      "learning_rate": 1.127504810104213e-05,
      "loss": 0.3376,
      "num_input_tokens_seen": 23449208,
      "step": 35835
    },
    {
      "epoch": 18.78406708595388,
      "grad_norm": 0.14606572687625885,
      "learning_rate": 1.1226808248186782e-05,
      "loss": 0.4032,
      "num_input_tokens_seen": 23452376,
      "step": 35840
    },
    {
      "epoch": 18.786687631027252,
      "grad_norm": 0.16276617348194122,
      "learning_rate": 1.1178670641106891e-05,
      "loss": 0.3234,
      "num_input_tokens_seen": 23455768,
      "step": 35845
    },
    {
      "epoch": 18.78930817610063,
      "grad_norm": 0.19884386658668518,
      "learning_rate": 1.1130635289872403e-05,
      "loss": 0.3948,
      "num_input_tokens_seen": 23458680,
      "step": 35850
    },
    {
      "epoch": 18.791928721174003,
      "grad_norm": 0.19161133468151093,
      "learning_rate": 1.1082702204531725e-05,
      "loss": 0.4565,
      "num_input_tokens_seen": 23462456,
      "step": 35855
    },
    {
      "epoch": 18.79454926624738,
      "grad_norm": 0.1741696447134018,
      "learning_rate": 1.1034871395111778e-05,
      "loss": 0.515,
      "num_input_tokens_seen": 23465656,
      "step": 35860
    },
    {
      "epoch": 18.797169811320753,
      "grad_norm": 0.21520526707172394,
      "learning_rate": 1.0987142871618394e-05,
      "loss": 0.5236,
      "num_input_tokens_seen": 23468472,
      "step": 35865
    },
    {
      "epoch": 18.79979035639413,
      "grad_norm": 0.12445640563964844,
      "learning_rate": 1.0939516644035696e-05,
      "loss": 0.386,
      "num_input_tokens_seen": 23472248,
      "step": 35870
    },
    {
      "epoch": 18.802410901467507,
      "grad_norm": 0.19044537842273712,
      "learning_rate": 1.0891992722326716e-05,
      "loss": 0.3366,
      "num_input_tokens_seen": 23474680,
      "step": 35875
    },
    {
      "epoch": 18.80503144654088,
      "grad_norm": 0.14965516328811646,
      "learning_rate": 1.0844571116432778e-05,
      "loss": 0.4993,
      "num_input_tokens_seen": 23477368,
      "step": 35880
    },
    {
      "epoch": 18.807651991614257,
      "grad_norm": 0.1800951212644577,
      "learning_rate": 1.0797251836274003e-05,
      "loss": 0.4815,
      "num_input_tokens_seen": 23481112,
      "step": 35885
    },
    {
      "epoch": 18.81027253668763,
      "grad_norm": 0.18578220903873444,
      "learning_rate": 1.0750034891748972e-05,
      "loss": 0.4592,
      "num_input_tokens_seen": 23484088,
      "step": 35890
    },
    {
      "epoch": 18.812893081761008,
      "grad_norm": 0.16135625541210175,
      "learning_rate": 1.0702920292735009e-05,
      "loss": 0.377,
      "num_input_tokens_seen": 23487288,
      "step": 35895
    },
    {
      "epoch": 18.81551362683438,
      "grad_norm": 0.17345833778381348,
      "learning_rate": 1.0655908049087893e-05,
      "loss": 0.4614,
      "num_input_tokens_seen": 23490680,
      "step": 35900
    },
    {
      "epoch": 18.818134171907758,
      "grad_norm": 0.12822125852108002,
      "learning_rate": 1.0608998170642149e-05,
      "loss": 0.4589,
      "num_input_tokens_seen": 23493144,
      "step": 35905
    },
    {
      "epoch": 18.82075471698113,
      "grad_norm": 0.21253815293312073,
      "learning_rate": 1.0562190667210703e-05,
      "loss": 0.4657,
      "num_input_tokens_seen": 23495608,
      "step": 35910
    },
    {
      "epoch": 18.82337526205451,
      "grad_norm": 0.16123636066913605,
      "learning_rate": 1.0515485548585113e-05,
      "loss": 0.379,
      "num_input_tokens_seen": 23499544,
      "step": 35915
    },
    {
      "epoch": 18.82599580712788,
      "grad_norm": 0.2437451034784317,
      "learning_rate": 1.0468882824535676e-05,
      "loss": 0.3898,
      "num_input_tokens_seen": 23502168,
      "step": 35920
    },
    {
      "epoch": 18.82861635220126,
      "grad_norm": 0.10834270715713501,
      "learning_rate": 1.0422382504811034e-05,
      "loss": 0.4395,
      "num_input_tokens_seen": 23505816,
      "step": 35925
    },
    {
      "epoch": 18.831236897274632,
      "grad_norm": 0.19076915085315704,
      "learning_rate": 1.0375984599138633e-05,
      "loss": 0.4572,
      "num_input_tokens_seen": 23509176,
      "step": 35930
    },
    {
      "epoch": 18.83385744234801,
      "grad_norm": 0.2540772557258606,
      "learning_rate": 1.0329689117224261e-05,
      "loss": 0.4577,
      "num_input_tokens_seen": 23512024,
      "step": 35935
    },
    {
      "epoch": 18.836477987421382,
      "grad_norm": 0.14103566110134125,
      "learning_rate": 1.0283496068752507e-05,
      "loss": 0.4766,
      "num_input_tokens_seen": 23514552,
      "step": 35940
    },
    {
      "epoch": 18.83909853249476,
      "grad_norm": 0.22648130357265472,
      "learning_rate": 1.0237405463386418e-05,
      "loss": 0.4926,
      "num_input_tokens_seen": 23517528,
      "step": 35945
    },
    {
      "epoch": 18.841719077568133,
      "grad_norm": 0.14186803996562958,
      "learning_rate": 1.0191417310767503e-05,
      "loss": 0.4115,
      "num_input_tokens_seen": 23521272,
      "step": 35950
    },
    {
      "epoch": 18.84433962264151,
      "grad_norm": 0.135823056101799,
      "learning_rate": 1.0145531620516179e-05,
      "loss": 0.4741,
      "num_input_tokens_seen": 23524632,
      "step": 35955
    },
    {
      "epoch": 18.846960167714883,
      "grad_norm": 0.10376710444688797,
      "learning_rate": 1.009974840223099e-05,
      "loss": 0.3739,
      "num_input_tokens_seen": 23531160,
      "step": 35960
    },
    {
      "epoch": 18.84958071278826,
      "grad_norm": 0.15116998553276062,
      "learning_rate": 1.0054067665489386e-05,
      "loss": 0.4847,
      "num_input_tokens_seen": 23534104,
      "step": 35965
    },
    {
      "epoch": 18.852201257861637,
      "grad_norm": 0.14491039514541626,
      "learning_rate": 1.0008489419847278e-05,
      "loss": 0.4177,
      "num_input_tokens_seen": 23536856,
      "step": 35970
    },
    {
      "epoch": 18.85482180293501,
      "grad_norm": 0.1496758908033371,
      "learning_rate": 9.963013674839038e-06,
      "loss": 0.5545,
      "num_input_tokens_seen": 23540152,
      "step": 35975
    },
    {
      "epoch": 18.857442348008387,
      "grad_norm": 0.13002774119377136,
      "learning_rate": 9.91764043997767e-06,
      "loss": 0.5078,
      "num_input_tokens_seen": 23543640,
      "step": 35980
    },
    {
      "epoch": 18.86006289308176,
      "grad_norm": 0.13138152658939362,
      "learning_rate": 9.872369724754804e-06,
      "loss": 0.4354,
      "num_input_tokens_seen": 23547064,
      "step": 35985
    },
    {
      "epoch": 18.862683438155138,
      "grad_norm": 0.21759311854839325,
      "learning_rate": 9.827201538640473e-06,
      "loss": 0.5092,
      "num_input_tokens_seen": 23549944,
      "step": 35990
    },
    {
      "epoch": 18.86530398322851,
      "grad_norm": 0.11652772128582001,
      "learning_rate": 9.782135891083455e-06,
      "loss": 0.4955,
      "num_input_tokens_seen": 23553560,
      "step": 35995
    },
    {
      "epoch": 18.867924528301888,
      "grad_norm": 0.20211343467235565,
      "learning_rate": 9.737172791510873e-06,
      "loss": 0.4632,
      "num_input_tokens_seen": 23556504,
      "step": 36000
    },
    {
      "epoch": 18.87054507337526,
      "grad_norm": 0.1547842025756836,
      "learning_rate": 9.692312249328483e-06,
      "loss": 0.5725,
      "num_input_tokens_seen": 23560376,
      "step": 36005
    },
    {
      "epoch": 18.87316561844864,
      "grad_norm": 0.2844763398170471,
      "learning_rate": 9.647554273920722e-06,
      "loss": 0.3201,
      "num_input_tokens_seen": 23563064,
      "step": 36010
    },
    {
      "epoch": 18.87578616352201,
      "grad_norm": 0.08565423637628555,
      "learning_rate": 9.602898874650323e-06,
      "loss": 0.3816,
      "num_input_tokens_seen": 23566456,
      "step": 36015
    },
    {
      "epoch": 18.87840670859539,
      "grad_norm": 0.10940347611904144,
      "learning_rate": 9.558346060858759e-06,
      "loss": 0.3674,
      "num_input_tokens_seen": 23569976,
      "step": 36020
    },
    {
      "epoch": 18.881027253668762,
      "grad_norm": 0.12370972335338593,
      "learning_rate": 9.51389584186596e-06,
      "loss": 0.5419,
      "num_input_tokens_seen": 23573368,
      "step": 36025
    },
    {
      "epoch": 18.88364779874214,
      "grad_norm": 0.22909881174564362,
      "learning_rate": 9.469548226970326e-06,
      "loss": 0.3748,
      "num_input_tokens_seen": 23576952,
      "step": 36030
    },
    {
      "epoch": 18.886268343815512,
      "grad_norm": 0.21954429149627686,
      "learning_rate": 9.425303225448989e-06,
      "loss": 0.4152,
      "num_input_tokens_seen": 23580248,
      "step": 36035
    },
    {
      "epoch": 18.88888888888889,
      "grad_norm": 0.15963390469551086,
      "learning_rate": 9.381160846557435e-06,
      "loss": 0.35,
      "num_input_tokens_seen": 23583128,
      "step": 36040
    },
    {
      "epoch": 18.891509433962263,
      "grad_norm": 0.20574043691158295,
      "learning_rate": 9.337121099529722e-06,
      "loss": 0.4787,
      "num_input_tokens_seen": 23586104,
      "step": 36045
    },
    {
      "epoch": 18.89412997903564,
      "grad_norm": 0.13270951807498932,
      "learning_rate": 9.293183993578535e-06,
      "loss": 0.5073,
      "num_input_tokens_seen": 23589400,
      "step": 36050
    },
    {
      "epoch": 18.896750524109013,
      "grad_norm": 0.166155606508255,
      "learning_rate": 9.249349537894968e-06,
      "loss": 0.4731,
      "num_input_tokens_seen": 23592184,
      "step": 36055
    },
    {
      "epoch": 18.89937106918239,
      "grad_norm": 0.1352546364068985,
      "learning_rate": 9.205617741648686e-06,
      "loss": 0.4994,
      "num_input_tokens_seen": 23595064,
      "step": 36060
    },
    {
      "epoch": 18.901991614255767,
      "grad_norm": 0.15456902980804443,
      "learning_rate": 9.161988613987982e-06,
      "loss": 0.3513,
      "num_input_tokens_seen": 23597432,
      "step": 36065
    },
    {
      "epoch": 18.90461215932914,
      "grad_norm": 0.1838204711675644,
      "learning_rate": 9.118462164039387e-06,
      "loss": 0.4799,
      "num_input_tokens_seen": 23600600,
      "step": 36070
    },
    {
      "epoch": 18.907232704402517,
      "grad_norm": 0.10841111093759537,
      "learning_rate": 9.07503840090823e-06,
      "loss": 0.4318,
      "num_input_tokens_seen": 23604440,
      "step": 36075
    },
    {
      "epoch": 18.90985324947589,
      "grad_norm": 0.09613489359617233,
      "learning_rate": 9.031717333678303e-06,
      "loss": 0.5587,
      "num_input_tokens_seen": 23607736,
      "step": 36080
    },
    {
      "epoch": 18.912473794549268,
      "grad_norm": 0.15180987119674683,
      "learning_rate": 8.988498971411851e-06,
      "loss": 0.5352,
      "num_input_tokens_seen": 23615096,
      "step": 36085
    },
    {
      "epoch": 18.91509433962264,
      "grad_norm": 0.13286210596561432,
      "learning_rate": 8.945383323149647e-06,
      "loss": 0.3683,
      "num_input_tokens_seen": 23618584,
      "step": 36090
    },
    {
      "epoch": 18.917714884696018,
      "grad_norm": 0.22297804057598114,
      "learning_rate": 8.902370397911031e-06,
      "loss": 0.6066,
      "num_input_tokens_seen": 23622808,
      "step": 36095
    },
    {
      "epoch": 18.92033542976939,
      "grad_norm": 0.21017847955226898,
      "learning_rate": 8.859460204693748e-06,
      "loss": 0.472,
      "num_input_tokens_seen": 23625752,
      "step": 36100
    },
    {
      "epoch": 18.92295597484277,
      "grad_norm": 0.11851800233125687,
      "learning_rate": 8.816652752474175e-06,
      "loss": 0.4638,
      "num_input_tokens_seen": 23629144,
      "step": 36105
    },
    {
      "epoch": 18.92557651991614,
      "grad_norm": 0.19649770855903625,
      "learning_rate": 8.773948050207148e-06,
      "loss": 0.3727,
      "num_input_tokens_seen": 23632440,
      "step": 36110
    },
    {
      "epoch": 18.92819706498952,
      "grad_norm": 0.08516073226928711,
      "learning_rate": 8.731346106826021e-06,
      "loss": 0.3988,
      "num_input_tokens_seen": 23635448,
      "step": 36115
    },
    {
      "epoch": 18.930817610062892,
      "grad_norm": 0.11934821307659149,
      "learning_rate": 8.6888469312425e-06,
      "loss": 0.5947,
      "num_input_tokens_seen": 23639160,
      "step": 36120
    },
    {
      "epoch": 18.93343815513627,
      "grad_norm": 0.10135388374328613,
      "learning_rate": 8.646450532347083e-06,
      "loss": 0.3613,
      "num_input_tokens_seen": 23642904,
      "step": 36125
    },
    {
      "epoch": 18.936058700209642,
      "grad_norm": 0.11898519843816757,
      "learning_rate": 8.604156919008565e-06,
      "loss": 0.291,
      "num_input_tokens_seen": 23646200,
      "step": 36130
    },
    {
      "epoch": 18.93867924528302,
      "grad_norm": 0.15687212347984314,
      "learning_rate": 8.561966100074258e-06,
      "loss": 0.4005,
      "num_input_tokens_seen": 23649304,
      "step": 36135
    },
    {
      "epoch": 18.941299790356393,
      "grad_norm": 0.15712447464466095,
      "learning_rate": 8.519878084370048e-06,
      "loss": 0.5253,
      "num_input_tokens_seen": 23652024,
      "step": 36140
    },
    {
      "epoch": 18.94392033542977,
      "grad_norm": 0.2146104872226715,
      "learning_rate": 8.477892880700222e-06,
      "loss": 0.3963,
      "num_input_tokens_seen": 23655608,
      "step": 36145
    },
    {
      "epoch": 18.946540880503143,
      "grad_norm": 0.15086427330970764,
      "learning_rate": 8.436010497847646e-06,
      "loss": 0.4133,
      "num_input_tokens_seen": 23658616,
      "step": 36150
    },
    {
      "epoch": 18.94916142557652,
      "grad_norm": 0.21976864337921143,
      "learning_rate": 8.39423094457359e-06,
      "loss": 0.3915,
      "num_input_tokens_seen": 23661976,
      "step": 36155
    },
    {
      "epoch": 18.951781970649897,
      "grad_norm": 0.21932727098464966,
      "learning_rate": 8.352554229617892e-06,
      "loss": 0.4032,
      "num_input_tokens_seen": 23665080,
      "step": 36160
    },
    {
      "epoch": 18.95440251572327,
      "grad_norm": 0.1351754516363144,
      "learning_rate": 8.310980361698861e-06,
      "loss": 0.5237,
      "num_input_tokens_seen": 23667736,
      "step": 36165
    },
    {
      "epoch": 18.957023060796647,
      "grad_norm": 0.12919148802757263,
      "learning_rate": 8.26950934951326e-06,
      "loss": 0.3131,
      "num_input_tokens_seen": 23672824,
      "step": 36170
    },
    {
      "epoch": 18.95964360587002,
      "grad_norm": 0.17562849819660187,
      "learning_rate": 8.22814120173626e-06,
      "loss": 0.4158,
      "num_input_tokens_seen": 23676024,
      "step": 36175
    },
    {
      "epoch": 18.962264150943398,
      "grad_norm": 0.16852810978889465,
      "learning_rate": 8.186875927021775e-06,
      "loss": 0.4616,
      "num_input_tokens_seen": 23678936,
      "step": 36180
    },
    {
      "epoch": 18.96488469601677,
      "grad_norm": 0.19347010552883148,
      "learning_rate": 8.145713534001897e-06,
      "loss": 0.5618,
      "num_input_tokens_seen": 23683160,
      "step": 36185
    },
    {
      "epoch": 18.967505241090148,
      "grad_norm": 0.1416357010602951,
      "learning_rate": 8.104654031287406e-06,
      "loss": 0.3932,
      "num_input_tokens_seen": 23685912,
      "step": 36190
    },
    {
      "epoch": 18.97012578616352,
      "grad_norm": 0.1811344027519226,
      "learning_rate": 8.063697427467486e-06,
      "loss": 0.436,
      "num_input_tokens_seen": 23688536,
      "step": 36195
    },
    {
      "epoch": 18.9727463312369,
      "grad_norm": 0.12054416537284851,
      "learning_rate": 8.022843731109675e-06,
      "loss": 0.4005,
      "num_input_tokens_seen": 23691608,
      "step": 36200
    },
    {
      "epoch": 18.97536687631027,
      "grad_norm": 0.1224682480096817,
      "learning_rate": 7.982092950760245e-06,
      "loss": 0.4005,
      "num_input_tokens_seen": 23694936,
      "step": 36205
    },
    {
      "epoch": 18.97798742138365,
      "grad_norm": 0.14028897881507874,
      "learning_rate": 7.941445094943711e-06,
      "loss": 0.4478,
      "num_input_tokens_seen": 23698168,
      "step": 36210
    },
    {
      "epoch": 18.980607966457022,
      "grad_norm": 0.15066058933734894,
      "learning_rate": 7.900900172163107e-06,
      "loss": 0.4271,
      "num_input_tokens_seen": 23701080,
      "step": 36215
    },
    {
      "epoch": 18.9832285115304,
      "grad_norm": 0.14715325832366943,
      "learning_rate": 7.860458190900144e-06,
      "loss": 0.3847,
      "num_input_tokens_seen": 23704088,
      "step": 36220
    },
    {
      "epoch": 18.985849056603772,
      "grad_norm": 0.1629425585269928,
      "learning_rate": 7.820119159614669e-06,
      "loss": 0.5105,
      "num_input_tokens_seen": 23706520,
      "step": 36225
    },
    {
      "epoch": 18.98846960167715,
      "grad_norm": 0.1518535614013672,
      "learning_rate": 7.779883086745098e-06,
      "loss": 0.4426,
      "num_input_tokens_seen": 23709656,
      "step": 36230
    },
    {
      "epoch": 18.991090146750523,
      "grad_norm": 0.28681832551956177,
      "learning_rate": 7.739749980708533e-06,
      "loss": 0.3996,
      "num_input_tokens_seen": 23712280,
      "step": 36235
    },
    {
      "epoch": 18.9937106918239,
      "grad_norm": 0.23753845691680908,
      "learning_rate": 7.6997198499002e-06,
      "loss": 0.3983,
      "num_input_tokens_seen": 23715224,
      "step": 36240
    },
    {
      "epoch": 18.996331236897273,
      "grad_norm": 0.13986031711101532,
      "learning_rate": 7.659792702694068e-06,
      "loss": 0.3315,
      "num_input_tokens_seen": 23719224,
      "step": 36245
    },
    {
      "epoch": 18.99895178197065,
      "grad_norm": 0.17764021456241608,
      "learning_rate": 7.619968547442346e-06,
      "loss": 0.4425,
      "num_input_tokens_seen": 23721848,
      "step": 36250
    },
    {
      "epoch": 19.0,
      "eval_loss": 0.4555346667766571,
      "eval_runtime": 13.3213,
      "eval_samples_per_second": 63.658,
      "eval_steps_per_second": 15.914,
      "num_input_tokens_seen": 23722376,
      "step": 36252
    },
    {
      "epoch": 19.001572327044027,
      "grad_norm": 0.22575709223747253,
      "learning_rate": 7.580247392475926e-06,
      "loss": 0.4312,
      "num_input_tokens_seen": 23723848,
      "step": 36255
    },
    {
      "epoch": 19.0041928721174,
      "grad_norm": 0.1282828003168106,
      "learning_rate": 7.540629246103825e-06,
      "loss": 0.4714,
      "num_input_tokens_seen": 23727912,
      "step": 36260
    },
    {
      "epoch": 19.006813417190777,
      "grad_norm": 0.23105154931545258,
      "learning_rate": 7.501114116613861e-06,
      "loss": 0.3946,
      "num_input_tokens_seen": 23730696,
      "step": 36265
    },
    {
      "epoch": 19.00943396226415,
      "grad_norm": 0.13432683050632477,
      "learning_rate": 7.461702012272087e-06,
      "loss": 0.3599,
      "num_input_tokens_seen": 23733960,
      "step": 36270
    },
    {
      "epoch": 19.012054507337528,
      "grad_norm": 0.2691277265548706,
      "learning_rate": 7.422392941323075e-06,
      "loss": 0.456,
      "num_input_tokens_seen": 23736712,
      "step": 36275
    },
    {
      "epoch": 19.0146750524109,
      "grad_norm": 0.18025414645671844,
      "learning_rate": 7.383186911989858e-06,
      "loss": 0.5568,
      "num_input_tokens_seen": 23739624,
      "step": 36280
    },
    {
      "epoch": 19.017295597484278,
      "grad_norm": 0.18449337780475616,
      "learning_rate": 7.344083932473822e-06,
      "loss": 0.3488,
      "num_input_tokens_seen": 23742696,
      "step": 36285
    },
    {
      "epoch": 19.01991614255765,
      "grad_norm": 0.1804535686969757,
      "learning_rate": 7.305084010954976e-06,
      "loss": 0.5117,
      "num_input_tokens_seen": 23746472,
      "step": 36290
    },
    {
      "epoch": 19.02253668763103,
      "grad_norm": 0.15718968212604523,
      "learning_rate": 7.26618715559152e-06,
      "loss": 0.3209,
      "num_input_tokens_seen": 23749640,
      "step": 36295
    },
    {
      "epoch": 19.0251572327044,
      "grad_norm": 0.11776439100503922,
      "learning_rate": 7.227393374520386e-06,
      "loss": 0.4649,
      "num_input_tokens_seen": 23752328,
      "step": 36300
    },
    {
      "epoch": 19.02777777777778,
      "grad_norm": 0.16436341404914856,
      "learning_rate": 7.18870267585664e-06,
      "loss": 0.4101,
      "num_input_tokens_seen": 23756392,
      "step": 36305
    },
    {
      "epoch": 19.030398322851152,
      "grad_norm": 0.1532108187675476,
      "learning_rate": 7.150115067694085e-06,
      "loss": 0.4994,
      "num_input_tokens_seen": 23759784,
      "step": 36310
    },
    {
      "epoch": 19.03301886792453,
      "grad_norm": 0.13131916522979736,
      "learning_rate": 7.111630558104653e-06,
      "loss": 0.4266,
      "num_input_tokens_seen": 23762408,
      "step": 36315
    },
    {
      "epoch": 19.035639412997902,
      "grad_norm": 0.09724077582359314,
      "learning_rate": 7.073249155138961e-06,
      "loss": 0.4445,
      "num_input_tokens_seen": 23765960,
      "step": 36320
    },
    {
      "epoch": 19.03825995807128,
      "grad_norm": 0.15339741110801697,
      "learning_rate": 7.0349708668259736e-06,
      "loss": 0.4899,
      "num_input_tokens_seen": 23769032,
      "step": 36325
    },
    {
      "epoch": 19.040880503144653,
      "grad_norm": 0.17734897136688232,
      "learning_rate": 6.996795701173009e-06,
      "loss": 0.3604,
      "num_input_tokens_seen": 23771528,
      "step": 36330
    },
    {
      "epoch": 19.04350104821803,
      "grad_norm": 0.14874178171157837,
      "learning_rate": 6.958723666165901e-06,
      "loss": 0.5086,
      "num_input_tokens_seen": 23775400,
      "step": 36335
    },
    {
      "epoch": 19.046121593291403,
      "grad_norm": 0.2720239460468292,
      "learning_rate": 6.9207547697689446e-06,
      "loss": 0.3599,
      "num_input_tokens_seen": 23778536,
      "step": 36340
    },
    {
      "epoch": 19.04874213836478,
      "grad_norm": 0.11656926572322845,
      "learning_rate": 6.882889019924676e-06,
      "loss": 0.4171,
      "num_input_tokens_seen": 23781832,
      "step": 36345
    },
    {
      "epoch": 19.051362683438157,
      "grad_norm": 0.16655826568603516,
      "learning_rate": 6.84512642455426e-06,
      "loss": 0.5045,
      "num_input_tokens_seen": 23789288,
      "step": 36350
    },
    {
      "epoch": 19.05398322851153,
      "grad_norm": 0.12335318326950073,
      "learning_rate": 6.8074669915572095e-06,
      "loss": 0.4291,
      "num_input_tokens_seen": 23792296,
      "step": 36355
    },
    {
      "epoch": 19.056603773584907,
      "grad_norm": 0.10270684212446213,
      "learning_rate": 6.769910728811391e-06,
      "loss": 0.4297,
      "num_input_tokens_seen": 23795464,
      "step": 36360
    },
    {
      "epoch": 19.05922431865828,
      "grad_norm": 0.14460055530071259,
      "learning_rate": 6.73245764417324e-06,
      "loss": 0.5291,
      "num_input_tokens_seen": 23798504,
      "step": 36365
    },
    {
      "epoch": 19.061844863731658,
      "grad_norm": 0.15898597240447998,
      "learning_rate": 6.695107745477435e-06,
      "loss": 0.491,
      "num_input_tokens_seen": 23802024,
      "step": 36370
    },
    {
      "epoch": 19.06446540880503,
      "grad_norm": 0.15511895716190338,
      "learning_rate": 6.657861040537117e-06,
      "loss": 0.3151,
      "num_input_tokens_seen": 23805512,
      "step": 36375
    },
    {
      "epoch": 19.067085953878408,
      "grad_norm": 0.12128876149654388,
      "learning_rate": 6.620717537143994e-06,
      "loss": 0.3581,
      "num_input_tokens_seen": 23808712,
      "step": 36380
    },
    {
      "epoch": 19.06970649895178,
      "grad_norm": 0.15409335494041443,
      "learning_rate": 6.583677243067965e-06,
      "loss": 0.3813,
      "num_input_tokens_seen": 23814280,
      "step": 36385
    },
    {
      "epoch": 19.072327044025158,
      "grad_norm": 0.2328968197107315,
      "learning_rate": 6.546740166057441e-06,
      "loss": 0.424,
      "num_input_tokens_seen": 23817448,
      "step": 36390
    },
    {
      "epoch": 19.07494758909853,
      "grad_norm": 0.17139025032520294,
      "learning_rate": 6.5099063138392975e-06,
      "loss": 0.5021,
      "num_input_tokens_seen": 23820520,
      "step": 36395
    },
    {
      "epoch": 19.07756813417191,
      "grad_norm": 0.037713274359703064,
      "learning_rate": 6.473175694118705e-06,
      "loss": 0.3026,
      "num_input_tokens_seen": 23826664,
      "step": 36400
    },
    {
      "epoch": 19.080188679245282,
      "grad_norm": 0.08694848418235779,
      "learning_rate": 6.436548314579349e-06,
      "loss": 0.3529,
      "num_input_tokens_seen": 23830120,
      "step": 36405
    },
    {
      "epoch": 19.08280922431866,
      "grad_norm": 0.1404169201850891,
      "learning_rate": 6.400024182883158e-06,
      "loss": 0.5579,
      "num_input_tokens_seen": 23833480,
      "step": 36410
    },
    {
      "epoch": 19.085429769392032,
      "grad_norm": 0.1832800656557083,
      "learning_rate": 6.363603306670629e-06,
      "loss": 0.4919,
      "num_input_tokens_seen": 23836712,
      "step": 36415
    },
    {
      "epoch": 19.08805031446541,
      "grad_norm": 0.19897109270095825,
      "learning_rate": 6.327285693560614e-06,
      "loss": 0.5601,
      "num_input_tokens_seen": 23840072,
      "step": 36420
    },
    {
      "epoch": 19.090670859538783,
      "grad_norm": 0.1341678649187088,
      "learning_rate": 6.2910713511503125e-06,
      "loss": 0.4627,
      "num_input_tokens_seen": 23843176,
      "step": 36425
    },
    {
      "epoch": 19.09329140461216,
      "grad_norm": 0.0886089876294136,
      "learning_rate": 6.254960287015332e-06,
      "loss": 0.3909,
      "num_input_tokens_seen": 23846344,
      "step": 36430
    },
    {
      "epoch": 19.095911949685533,
      "grad_norm": 0.13194257020950317,
      "learning_rate": 6.218952508709741e-06,
      "loss": 0.395,
      "num_input_tokens_seen": 23850216,
      "step": 36435
    },
    {
      "epoch": 19.09853249475891,
      "grad_norm": 0.3684655427932739,
      "learning_rate": 6.183048023765903e-06,
      "loss": 0.5637,
      "num_input_tokens_seen": 23853352,
      "step": 36440
    },
    {
      "epoch": 19.101153039832287,
      "grad_norm": 0.11212980002164841,
      "learning_rate": 6.147246839694698e-06,
      "loss": 0.419,
      "num_input_tokens_seen": 23855912,
      "step": 36445
    },
    {
      "epoch": 19.10377358490566,
      "grad_norm": 0.285103440284729,
      "learning_rate": 6.111548963985247e-06,
      "loss": 0.2892,
      "num_input_tokens_seen": 23858120,
      "step": 36450
    },
    {
      "epoch": 19.106394129979037,
      "grad_norm": 0.16690616309642792,
      "learning_rate": 6.075954404105188e-06,
      "loss": 0.4418,
      "num_input_tokens_seen": 23861736,
      "step": 36455
    },
    {
      "epoch": 19.10901467505241,
      "grad_norm": 0.14568844437599182,
      "learning_rate": 6.040463167500509e-06,
      "loss": 0.3188,
      "num_input_tokens_seen": 23865864,
      "step": 36460
    },
    {
      "epoch": 19.111635220125788,
      "grad_norm": 0.25490278005599976,
      "learning_rate": 6.005075261595494e-06,
      "loss": 0.4292,
      "num_input_tokens_seen": 23869160,
      "step": 36465
    },
    {
      "epoch": 19.11425576519916,
      "grad_norm": 0.11691255867481232,
      "learning_rate": 5.969790693792998e-06,
      "loss": 0.3705,
      "num_input_tokens_seen": 23873064,
      "step": 36470
    },
    {
      "epoch": 19.116876310272538,
      "grad_norm": 0.12366243451833725,
      "learning_rate": 5.9346094714740615e-06,
      "loss": 0.4185,
      "num_input_tokens_seen": 23876328,
      "step": 36475
    },
    {
      "epoch": 19.11949685534591,
      "grad_norm": 0.09541391581296921,
      "learning_rate": 5.8995316019982425e-06,
      "loss": 0.4035,
      "num_input_tokens_seen": 23878984,
      "step": 36480
    },
    {
      "epoch": 19.122117400419288,
      "grad_norm": 0.11503446102142334,
      "learning_rate": 5.8645570927034485e-06,
      "loss": 0.2954,
      "num_input_tokens_seen": 23881800,
      "step": 36485
    },
    {
      "epoch": 19.12473794549266,
      "grad_norm": 0.16280372440814972,
      "learning_rate": 5.8296859509058275e-06,
      "loss": 0.4055,
      "num_input_tokens_seen": 23884296,
      "step": 36490
    },
    {
      "epoch": 19.12735849056604,
      "grad_norm": 0.2762100398540497,
      "learning_rate": 5.794918183900155e-06,
      "loss": 0.6559,
      "num_input_tokens_seen": 23887560,
      "step": 36495
    },
    {
      "epoch": 19.129979035639412,
      "grad_norm": 0.16986069083213806,
      "learning_rate": 5.760253798959447e-06,
      "loss": 0.3457,
      "num_input_tokens_seen": 23890408,
      "step": 36500
    },
    {
      "epoch": 19.13259958071279,
      "grad_norm": 0.20770923793315887,
      "learning_rate": 5.725692803335015e-06,
      "loss": 0.4794,
      "num_input_tokens_seen": 23893288,
      "step": 36505
    },
    {
      "epoch": 19.135220125786162,
      "grad_norm": 0.2828877866268158,
      "learning_rate": 5.691235204256739e-06,
      "loss": 0.625,
      "num_input_tokens_seen": 23897000,
      "step": 36510
    },
    {
      "epoch": 19.13784067085954,
      "grad_norm": 0.1779688000679016,
      "learning_rate": 5.65688100893258e-06,
      "loss": 0.4295,
      "num_input_tokens_seen": 23900392,
      "step": 36515
    },
    {
      "epoch": 19.140461215932913,
      "grad_norm": 0.0944824144244194,
      "learning_rate": 5.622630224549174e-06,
      "loss": 0.3439,
      "num_input_tokens_seen": 23904520,
      "step": 36520
    },
    {
      "epoch": 19.14308176100629,
      "grad_norm": 0.21460485458374023,
      "learning_rate": 5.588482858271404e-06,
      "loss": 0.4478,
      "num_input_tokens_seen": 23907560,
      "step": 36525
    },
    {
      "epoch": 19.145702306079663,
      "grad_norm": 0.12536370754241943,
      "learning_rate": 5.554438917242444e-06,
      "loss": 0.482,
      "num_input_tokens_seen": 23911784,
      "step": 36530
    },
    {
      "epoch": 19.14832285115304,
      "grad_norm": 0.11675828695297241,
      "learning_rate": 5.520498408583985e-06,
      "loss": 0.3855,
      "num_input_tokens_seen": 23914952,
      "step": 36535
    },
    {
      "epoch": 19.150943396226417,
      "grad_norm": 0.15287181735038757,
      "learning_rate": 5.486661339395904e-06,
      "loss": 0.4677,
      "num_input_tokens_seen": 23918408,
      "step": 36540
    },
    {
      "epoch": 19.15356394129979,
      "grad_norm": 0.17704278230667114,
      "learning_rate": 5.452927716756595e-06,
      "loss": 0.4616,
      "num_input_tokens_seen": 23921896,
      "step": 36545
    },
    {
      "epoch": 19.156184486373167,
      "grad_norm": 0.14522290229797363,
      "learning_rate": 5.419297547722635e-06,
      "loss": 0.4296,
      "num_input_tokens_seen": 23925512,
      "step": 36550
    },
    {
      "epoch": 19.15880503144654,
      "grad_norm": 0.16959929466247559,
      "learning_rate": 5.385770839329229e-06,
      "loss": 0.432,
      "num_input_tokens_seen": 23928072,
      "step": 36555
    },
    {
      "epoch": 19.161425576519918,
      "grad_norm": 0.15884193778038025,
      "learning_rate": 5.352347598589713e-06,
      "loss": 0.3988,
      "num_input_tokens_seen": 23930632,
      "step": 36560
    },
    {
      "epoch": 19.16404612159329,
      "grad_norm": 0.1255856603384018,
      "learning_rate": 5.319027832495826e-06,
      "loss": 0.3938,
      "num_input_tokens_seen": 23934408,
      "step": 36565
    },
    {
      "epoch": 19.166666666666668,
      "grad_norm": 0.10113564878702164,
      "learning_rate": 5.285811548017661e-06,
      "loss": 0.2814,
      "num_input_tokens_seen": 23937768,
      "step": 36570
    },
    {
      "epoch": 19.16928721174004,
      "grad_norm": 0.12934772670269012,
      "learning_rate": 5.252698752103713e-06,
      "loss": 0.3245,
      "num_input_tokens_seen": 23941288,
      "step": 36575
    },
    {
      "epoch": 19.171907756813418,
      "grad_norm": 0.19053363800048828,
      "learning_rate": 5.219689451680832e-06,
      "loss": 0.347,
      "num_input_tokens_seen": 23945384,
      "step": 36580
    },
    {
      "epoch": 19.17452830188679,
      "grad_norm": 0.117266446352005,
      "learning_rate": 5.186783653654214e-06,
      "loss": 0.3566,
      "num_input_tokens_seen": 23948680,
      "step": 36585
    },
    {
      "epoch": 19.17714884696017,
      "grad_norm": 0.24003291130065918,
      "learning_rate": 5.153981364907245e-06,
      "loss": 0.4363,
      "num_input_tokens_seen": 23951912,
      "step": 36590
    },
    {
      "epoch": 19.179769392033542,
      "grad_norm": 0.1535288691520691,
      "learning_rate": 5.121282592301935e-06,
      "loss": 0.4407,
      "num_input_tokens_seen": 23954568,
      "step": 36595
    },
    {
      "epoch": 19.18238993710692,
      "grad_norm": 0.1259029358625412,
      "learning_rate": 5.088687342678422e-06,
      "loss": 0.5874,
      "num_input_tokens_seen": 23958376,
      "step": 36600
    },
    {
      "epoch": 19.185010482180292,
      "grad_norm": 0.1585291028022766,
      "learning_rate": 5.056195622855253e-06,
      "loss": 0.4996,
      "num_input_tokens_seen": 23961768,
      "step": 36605
    },
    {
      "epoch": 19.18763102725367,
      "grad_norm": 0.1641794890165329,
      "learning_rate": 5.023807439629324e-06,
      "loss": 0.4894,
      "num_input_tokens_seen": 23964936,
      "step": 36610
    },
    {
      "epoch": 19.190251572327043,
      "grad_norm": 0.14693816006183624,
      "learning_rate": 4.991522799775938e-06,
      "loss": 0.5153,
      "num_input_tokens_seen": 23967976,
      "step": 36615
    },
    {
      "epoch": 19.19287211740042,
      "grad_norm": 0.20459330081939697,
      "learning_rate": 4.9593417100485816e-06,
      "loss": 0.4312,
      "num_input_tokens_seen": 23970984,
      "step": 36620
    },
    {
      "epoch": 19.195492662473793,
      "grad_norm": 0.16966529190540314,
      "learning_rate": 4.927264177179258e-06,
      "loss": 0.3569,
      "num_input_tokens_seen": 23975400,
      "step": 36625
    },
    {
      "epoch": 19.19811320754717,
      "grad_norm": 0.349573016166687,
      "learning_rate": 4.895290207878156e-06,
      "loss": 0.5337,
      "num_input_tokens_seen": 23978504,
      "step": 36630
    },
    {
      "epoch": 19.200733752620547,
      "grad_norm": 0.26269784569740295,
      "learning_rate": 4.863419808833924e-06,
      "loss": 0.3495,
      "num_input_tokens_seen": 23981992,
      "step": 36635
    },
    {
      "epoch": 19.20335429769392,
      "grad_norm": 0.13592170178890228,
      "learning_rate": 4.831652986713453e-06,
      "loss": 0.4149,
      "num_input_tokens_seen": 23985416,
      "step": 36640
    },
    {
      "epoch": 19.205974842767297,
      "grad_norm": 0.19778524339199066,
      "learning_rate": 4.799989748161926e-06,
      "loss": 0.4525,
      "num_input_tokens_seen": 23988328,
      "step": 36645
    },
    {
      "epoch": 19.20859538784067,
      "grad_norm": 0.1748049557209015,
      "learning_rate": 4.768430099803101e-06,
      "loss": 0.5068,
      "num_input_tokens_seen": 23991464,
      "step": 36650
    },
    {
      "epoch": 19.211215932914047,
      "grad_norm": 0.1567741185426712,
      "learning_rate": 4.736974048238696e-06,
      "loss": 0.4332,
      "num_input_tokens_seen": 23994536,
      "step": 36655
    },
    {
      "epoch": 19.21383647798742,
      "grad_norm": 0.1808120459318161,
      "learning_rate": 4.705621600049115e-06,
      "loss": 0.3574,
      "num_input_tokens_seen": 23998472,
      "step": 36660
    },
    {
      "epoch": 19.216457023060798,
      "grad_norm": 0.15541377663612366,
      "learning_rate": 4.674372761792889e-06,
      "loss": 0.426,
      "num_input_tokens_seen": 24001384,
      "step": 36665
    },
    {
      "epoch": 19.21907756813417,
      "grad_norm": 0.11200006306171417,
      "learning_rate": 4.6432275400069e-06,
      "loss": 0.5026,
      "num_input_tokens_seen": 24004712,
      "step": 36670
    },
    {
      "epoch": 19.221698113207548,
      "grad_norm": 0.2156718522310257,
      "learning_rate": 4.6121859412063264e-06,
      "loss": 0.4015,
      "num_input_tokens_seen": 24007144,
      "step": 36675
    },
    {
      "epoch": 19.22431865828092,
      "grad_norm": 0.24893684685230255,
      "learning_rate": 4.581247971884861e-06,
      "loss": 0.4105,
      "num_input_tokens_seen": 24010056,
      "step": 36680
    },
    {
      "epoch": 19.2269392033543,
      "grad_norm": 0.10373944789171219,
      "learning_rate": 4.550413638514217e-06,
      "loss": 0.3935,
      "num_input_tokens_seen": 24013352,
      "step": 36685
    },
    {
      "epoch": 19.229559748427672,
      "grad_norm": 0.23964406549930573,
      "learning_rate": 4.519682947544679e-06,
      "loss": 0.4173,
      "num_input_tokens_seen": 24016488,
      "step": 36690
    },
    {
      "epoch": 19.23218029350105,
      "grad_norm": 0.15830878913402557,
      "learning_rate": 4.489055905404715e-06,
      "loss": 0.5951,
      "num_input_tokens_seen": 24020008,
      "step": 36695
    },
    {
      "epoch": 19.234800838574422,
      "grad_norm": 0.18699681758880615,
      "learning_rate": 4.4585325185012014e-06,
      "loss": 0.4567,
      "num_input_tokens_seen": 24022472,
      "step": 36700
    },
    {
      "epoch": 19.2374213836478,
      "grad_norm": 0.12720200419425964,
      "learning_rate": 4.428112793219197e-06,
      "loss": 0.5066,
      "num_input_tokens_seen": 24026856,
      "step": 36705
    },
    {
      "epoch": 19.240041928721173,
      "grad_norm": 0.11646626144647598,
      "learning_rate": 4.397796735922277e-06,
      "loss": 0.4603,
      "num_input_tokens_seen": 24030376,
      "step": 36710
    },
    {
      "epoch": 19.24266247379455,
      "grad_norm": 0.17172278463840485,
      "learning_rate": 4.367584352952092e-06,
      "loss": 0.394,
      "num_input_tokens_seen": 24033384,
      "step": 36715
    },
    {
      "epoch": 19.245283018867923,
      "grad_norm": 0.21172767877578735,
      "learning_rate": 4.337475650628808e-06,
      "loss": 0.3476,
      "num_input_tokens_seen": 24039144,
      "step": 36720
    },
    {
      "epoch": 19.2479035639413,
      "grad_norm": 0.15477029979228973,
      "learning_rate": 4.307470635250832e-06,
      "loss": 0.3537,
      "num_input_tokens_seen": 24043112,
      "step": 36725
    },
    {
      "epoch": 19.250524109014677,
      "grad_norm": 0.1361255794763565,
      "learning_rate": 4.277569313094809e-06,
      "loss": 0.5064,
      "num_input_tokens_seen": 24046824,
      "step": 36730
    },
    {
      "epoch": 19.25314465408805,
      "grad_norm": 0.17438538372516632,
      "learning_rate": 4.247771690415791e-06,
      "loss": 0.4852,
      "num_input_tokens_seen": 24049576,
      "step": 36735
    },
    {
      "epoch": 19.255765199161427,
      "grad_norm": 0.10142350941896439,
      "learning_rate": 4.218077773447071e-06,
      "loss": 0.5094,
      "num_input_tokens_seen": 24052456,
      "step": 36740
    },
    {
      "epoch": 19.2583857442348,
      "grad_norm": 0.28426527976989746,
      "learning_rate": 4.1884875684003455e-06,
      "loss": 0.334,
      "num_input_tokens_seen": 24055272,
      "step": 36745
    },
    {
      "epoch": 19.261006289308177,
      "grad_norm": 0.13019497692584991,
      "learning_rate": 4.159001081465497e-06,
      "loss": 0.379,
      "num_input_tokens_seen": 24058728,
      "step": 36750
    },
    {
      "epoch": 19.26362683438155,
      "grad_norm": 0.11235907673835754,
      "learning_rate": 4.129618318810702e-06,
      "loss": 0.4646,
      "num_input_tokens_seen": 24061896,
      "step": 36755
    },
    {
      "epoch": 19.266247379454928,
      "grad_norm": 0.23647677898406982,
      "learning_rate": 4.100339286582655e-06,
      "loss": 0.5274,
      "num_input_tokens_seen": 24065000,
      "step": 36760
    },
    {
      "epoch": 19.2688679245283,
      "grad_norm": 0.11820009350776672,
      "learning_rate": 4.071163990906068e-06,
      "loss": 0.4222,
      "num_input_tokens_seen": 24068264,
      "step": 36765
    },
    {
      "epoch": 19.271488469601678,
      "grad_norm": 0.2123839557170868,
      "learning_rate": 4.042092437884115e-06,
      "loss": 0.4088,
      "num_input_tokens_seen": 24072008,
      "step": 36770
    },
    {
      "epoch": 19.27410901467505,
      "grad_norm": 0.09908989816904068,
      "learning_rate": 4.013124633598264e-06,
      "loss": 0.45,
      "num_input_tokens_seen": 24075752,
      "step": 36775
    },
    {
      "epoch": 19.27672955974843,
      "grad_norm": 0.14194662868976593,
      "learning_rate": 3.984260584108168e-06,
      "loss": 0.3928,
      "num_input_tokens_seen": 24079528,
      "step": 36780
    },
    {
      "epoch": 19.279350104821802,
      "grad_norm": 0.11680219322443008,
      "learning_rate": 3.955500295451942e-06,
      "loss": 0.4117,
      "num_input_tokens_seen": 24085544,
      "step": 36785
    },
    {
      "epoch": 19.28197064989518,
      "grad_norm": 0.21069008111953735,
      "learning_rate": 3.926843773645883e-06,
      "loss": 0.4485,
      "num_input_tokens_seen": 24089480,
      "step": 36790
    },
    {
      "epoch": 19.284591194968552,
      "grad_norm": 0.15173614025115967,
      "learning_rate": 3.8982910246846415e-06,
      "loss": 0.3593,
      "num_input_tokens_seen": 24092968,
      "step": 36795
    },
    {
      "epoch": 19.28721174004193,
      "grad_norm": 0.12034699320793152,
      "learning_rate": 3.869842054541051e-06,
      "loss": 0.3343,
      "num_input_tokens_seen": 24096680,
      "step": 36800
    },
    {
      "epoch": 19.289832285115303,
      "grad_norm": 0.14930959045886993,
      "learning_rate": 3.84149686916635e-06,
      "loss": 0.4174,
      "num_input_tokens_seen": 24100456,
      "step": 36805
    },
    {
      "epoch": 19.29245283018868,
      "grad_norm": 0.1516088992357254,
      "learning_rate": 3.8132554744900183e-06,
      "loss": 0.4574,
      "num_input_tokens_seen": 24103816,
      "step": 36810
    },
    {
      "epoch": 19.295073375262053,
      "grad_norm": 0.1542890965938568,
      "learning_rate": 3.7851178764198302e-06,
      "loss": 0.4151,
      "num_input_tokens_seen": 24107752,
      "step": 36815
    },
    {
      "epoch": 19.29769392033543,
      "grad_norm": 0.16616706550121307,
      "learning_rate": 3.7570840808419104e-06,
      "loss": 0.4456,
      "num_input_tokens_seen": 24110856,
      "step": 36820
    },
    {
      "epoch": 19.300314465408803,
      "grad_norm": 0.19667626917362213,
      "learning_rate": 3.729154093620568e-06,
      "loss": 0.559,
      "num_input_tokens_seen": 24113896,
      "step": 36825
    },
    {
      "epoch": 19.30293501048218,
      "grad_norm": 0.21630235016345978,
      "learning_rate": 3.7013279205984073e-06,
      "loss": 0.4685,
      "num_input_tokens_seen": 24116872,
      "step": 36830
    },
    {
      "epoch": 19.305555555555557,
      "grad_norm": 0.10054472833871841,
      "learning_rate": 3.6736055675963275e-06,
      "loss": 0.3459,
      "num_input_tokens_seen": 24120072,
      "step": 36835
    },
    {
      "epoch": 19.30817610062893,
      "grad_norm": 0.095381960272789,
      "learning_rate": 3.645987040413634e-06,
      "loss": 0.3513,
      "num_input_tokens_seen": 24124232,
      "step": 36840
    },
    {
      "epoch": 19.310796645702307,
      "grad_norm": 0.16488459706306458,
      "learning_rate": 3.6184723448277056e-06,
      "loss": 0.3954,
      "num_input_tokens_seen": 24127720,
      "step": 36845
    },
    {
      "epoch": 19.31341719077568,
      "grad_norm": 0.11987494677305222,
      "learning_rate": 3.5910614865943826e-06,
      "loss": 0.4764,
      "num_input_tokens_seen": 24131624,
      "step": 36850
    },
    {
      "epoch": 19.316037735849058,
      "grad_norm": 0.19079434871673584,
      "learning_rate": 3.563754471447689e-06,
      "loss": 0.3507,
      "num_input_tokens_seen": 24134568,
      "step": 36855
    },
    {
      "epoch": 19.31865828092243,
      "grad_norm": 0.24973277747631073,
      "learning_rate": 3.5365513050998334e-06,
      "loss": 0.3472,
      "num_input_tokens_seen": 24137768,
      "step": 36860
    },
    {
      "epoch": 19.321278825995808,
      "grad_norm": 0.3352857530117035,
      "learning_rate": 3.5094519932415414e-06,
      "loss": 0.4402,
      "num_input_tokens_seen": 24142184,
      "step": 36865
    },
    {
      "epoch": 19.32389937106918,
      "grad_norm": 0.14721697568893433,
      "learning_rate": 3.4824565415416123e-06,
      "loss": 0.4072,
      "num_input_tokens_seen": 24145192,
      "step": 36870
    },
    {
      "epoch": 19.32651991614256,
      "grad_norm": 0.11554025858640671,
      "learning_rate": 3.4555649556471946e-06,
      "loss": 0.4438,
      "num_input_tokens_seen": 24148648,
      "step": 36875
    },
    {
      "epoch": 19.329140461215932,
      "grad_norm": 0.06780415028333664,
      "learning_rate": 3.4287772411837338e-06,
      "loss": 0.3228,
      "num_input_tokens_seen": 24152616,
      "step": 36880
    },
    {
      "epoch": 19.33176100628931,
      "grad_norm": 0.16414107382297516,
      "learning_rate": 3.402093403754858e-06,
      "loss": 0.4953,
      "num_input_tokens_seen": 24155272,
      "step": 36885
    },
    {
      "epoch": 19.334381551362682,
      "grad_norm": 0.09374525398015976,
      "learning_rate": 3.375513448942602e-06,
      "loss": 0.4446,
      "num_input_tokens_seen": 24158536,
      "step": 36890
    },
    {
      "epoch": 19.33700209643606,
      "grad_norm": 0.07096949219703674,
      "learning_rate": 3.349037382307074e-06,
      "loss": 0.4675,
      "num_input_tokens_seen": 24163144,
      "step": 36895
    },
    {
      "epoch": 19.339622641509433,
      "grad_norm": 0.14311474561691284,
      "learning_rate": 3.322665209386899e-06,
      "loss": 0.385,
      "num_input_tokens_seen": 24165864,
      "step": 36900
    },
    {
      "epoch": 19.34224318658281,
      "grad_norm": 0.10741712152957916,
      "learning_rate": 3.29639693569872e-06,
      "loss": 0.4168,
      "num_input_tokens_seen": 24169032,
      "step": 36905
    },
    {
      "epoch": 19.344863731656183,
      "grad_norm": 0.19484828412532806,
      "learning_rate": 3.270232566737641e-06,
      "loss": 0.482,
      "num_input_tokens_seen": 24171592,
      "step": 36910
    },
    {
      "epoch": 19.34748427672956,
      "grad_norm": 0.15279030799865723,
      "learning_rate": 3.244172107976895e-06,
      "loss": 0.457,
      "num_input_tokens_seen": 24174824,
      "step": 36915
    },
    {
      "epoch": 19.350104821802937,
      "grad_norm": 0.17178240418434143,
      "learning_rate": 3.2182155648680657e-06,
      "loss": 0.5649,
      "num_input_tokens_seen": 24177864,
      "step": 36920
    },
    {
      "epoch": 19.35272536687631,
      "grad_norm": 0.11984103173017502,
      "learning_rate": 3.1923629428409205e-06,
      "loss": 0.408,
      "num_input_tokens_seen": 24181288,
      "step": 36925
    },
    {
      "epoch": 19.355345911949687,
      "grad_norm": 0.17782685160636902,
      "learning_rate": 3.166614247303634e-06,
      "loss": 0.567,
      "num_input_tokens_seen": 24184680,
      "step": 36930
    },
    {
      "epoch": 19.35796645702306,
      "grad_norm": 0.1400415301322937,
      "learning_rate": 3.140969483642453e-06,
      "loss": 0.3087,
      "num_input_tokens_seen": 24188072,
      "step": 36935
    },
    {
      "epoch": 19.360587002096437,
      "grad_norm": 0.20601825416088104,
      "learning_rate": 3.1154286572219747e-06,
      "loss": 0.389,
      "num_input_tokens_seen": 24190664,
      "step": 36940
    },
    {
      "epoch": 19.36320754716981,
      "grad_norm": 0.10124944150447845,
      "learning_rate": 3.089991773385037e-06,
      "loss": 0.235,
      "num_input_tokens_seen": 24193832,
      "step": 36945
    },
    {
      "epoch": 19.365828092243188,
      "grad_norm": 0.18977375328540802,
      "learning_rate": 3.064658837452772e-06,
      "loss": 0.4542,
      "num_input_tokens_seen": 24197256,
      "step": 36950
    },
    {
      "epoch": 19.36844863731656,
      "grad_norm": 0.2411389797925949,
      "learning_rate": 3.0394298547246068e-06,
      "loss": 0.3604,
      "num_input_tokens_seen": 24199816,
      "step": 36955
    },
    {
      "epoch": 19.371069182389938,
      "grad_norm": 0.14250394701957703,
      "learning_rate": 3.0143048304779875e-06,
      "loss": 0.51,
      "num_input_tokens_seen": 24203272,
      "step": 36960
    },
    {
      "epoch": 19.37368972746331,
      "grad_norm": 0.07673973590135574,
      "learning_rate": 2.989283769968987e-06,
      "loss": 0.3529,
      "num_input_tokens_seen": 24206728,
      "step": 36965
    },
    {
      "epoch": 19.37631027253669,
      "grad_norm": 0.18969491124153137,
      "learning_rate": 2.964366678431585e-06,
      "loss": 0.3437,
      "num_input_tokens_seen": 24209416,
      "step": 36970
    },
    {
      "epoch": 19.378930817610062,
      "grad_norm": 0.22703281044960022,
      "learning_rate": 2.9395535610781678e-06,
      "loss": 0.4875,
      "num_input_tokens_seen": 24212456,
      "step": 36975
    },
    {
      "epoch": 19.38155136268344,
      "grad_norm": 0.2091379016637802,
      "learning_rate": 2.9148444230994166e-06,
      "loss": 0.4403,
      "num_input_tokens_seen": 24214856,
      "step": 36980
    },
    {
      "epoch": 19.384171907756812,
      "grad_norm": 0.13511605560779572,
      "learning_rate": 2.890239269664141e-06,
      "loss": 0.385,
      "num_input_tokens_seen": 24218024,
      "step": 36985
    },
    {
      "epoch": 19.38679245283019,
      "grad_norm": 0.131822407245636,
      "learning_rate": 2.8657381059194466e-06,
      "loss": 0.4213,
      "num_input_tokens_seen": 24220808,
      "step": 36990
    },
    {
      "epoch": 19.389412997903563,
      "grad_norm": 0.09186306595802307,
      "learning_rate": 2.8413409369907885e-06,
      "loss": 0.5437,
      "num_input_tokens_seen": 24223816,
      "step": 36995
    },
    {
      "epoch": 19.39203354297694,
      "grad_norm": 0.0961485505104065,
      "learning_rate": 2.817047767981695e-06,
      "loss": 0.4089,
      "num_input_tokens_seen": 24227464,
      "step": 37000
    },
    {
      "epoch": 19.394654088050313,
      "grad_norm": 0.108078733086586,
      "learning_rate": 2.7928586039740466e-06,
      "loss": 0.488,
      "num_input_tokens_seen": 24230376,
      "step": 37005
    },
    {
      "epoch": 19.39727463312369,
      "grad_norm": 0.1690080761909485,
      "learning_rate": 2.7687734500279615e-06,
      "loss": 0.3644,
      "num_input_tokens_seen": 24232744,
      "step": 37010
    },
    {
      "epoch": 19.399895178197063,
      "grad_norm": 0.1268778294324875,
      "learning_rate": 2.744792311181743e-06,
      "loss": 0.4025,
      "num_input_tokens_seen": 24235848,
      "step": 37015
    },
    {
      "epoch": 19.40251572327044,
      "grad_norm": 0.16513778269290924,
      "learning_rate": 2.720915192451989e-06,
      "loss": 0.4432,
      "num_input_tokens_seen": 24239912,
      "step": 37020
    },
    {
      "epoch": 19.405136268343817,
      "grad_norm": 0.10516265034675598,
      "learning_rate": 2.697142098833538e-06,
      "loss": 0.6125,
      "num_input_tokens_seen": 24243784,
      "step": 37025
    },
    {
      "epoch": 19.40775681341719,
      "grad_norm": 0.13520386815071106,
      "learning_rate": 2.6734730352993563e-06,
      "loss": 0.3584,
      "num_input_tokens_seen": 24246792,
      "step": 37030
    },
    {
      "epoch": 19.410377358490567,
      "grad_norm": 0.14444254338741302,
      "learning_rate": 2.649908006800872e-06,
      "loss": 0.3658,
      "num_input_tokens_seen": 24249704,
      "step": 37035
    },
    {
      "epoch": 19.41299790356394,
      "grad_norm": 0.16452789306640625,
      "learning_rate": 2.626447018267586e-06,
      "loss": 0.4016,
      "num_input_tokens_seen": 24252616,
      "step": 37040
    },
    {
      "epoch": 19.415618448637318,
      "grad_norm": 0.1579509824514389,
      "learning_rate": 2.603090074607184e-06,
      "loss": 0.3515,
      "num_input_tokens_seen": 24256136,
      "step": 37045
    },
    {
      "epoch": 19.41823899371069,
      "grad_norm": 0.16060543060302734,
      "learning_rate": 2.579837180705813e-06,
      "loss": 0.438,
      "num_input_tokens_seen": 24259400,
      "step": 37050
    },
    {
      "epoch": 19.420859538784068,
      "grad_norm": 0.06803174316883087,
      "learning_rate": 2.556688341427582e-06,
      "loss": 0.3684,
      "num_input_tokens_seen": 24263880,
      "step": 37055
    },
    {
      "epoch": 19.42348008385744,
      "grad_norm": 0.18659552931785583,
      "learning_rate": 2.5336435616150066e-06,
      "loss": 0.4759,
      "num_input_tokens_seen": 24266888,
      "step": 37060
    },
    {
      "epoch": 19.42610062893082,
      "grad_norm": 0.20560477674007416,
      "learning_rate": 2.510702846088786e-06,
      "loss": 0.4622,
      "num_input_tokens_seen": 24269768,
      "step": 37065
    },
    {
      "epoch": 19.428721174004192,
      "grad_norm": 0.1461358517408371,
      "learning_rate": 2.487866199647915e-06,
      "loss": 0.3513,
      "num_input_tokens_seen": 24272808,
      "step": 37070
    },
    {
      "epoch": 19.43134171907757,
      "grad_norm": 0.1531819999217987,
      "learning_rate": 2.4651336270695156e-06,
      "loss": 0.3723,
      "num_input_tokens_seen": 24275592,
      "step": 37075
    },
    {
      "epoch": 19.433962264150942,
      "grad_norm": 0.18124441802501678,
      "learning_rate": 2.442505133108952e-06,
      "loss": 0.4447,
      "num_input_tokens_seen": 24278984,
      "step": 37080
    },
    {
      "epoch": 19.43658280922432,
      "grad_norm": 0.149929478764534,
      "learning_rate": 2.419980722499937e-06,
      "loss": 0.5551,
      "num_input_tokens_seen": 24282248,
      "step": 37085
    },
    {
      "epoch": 19.439203354297693,
      "grad_norm": 0.19642752408981323,
      "learning_rate": 2.397560399954202e-06,
      "loss": 0.3893,
      "num_input_tokens_seen": 24285960,
      "step": 37090
    },
    {
      "epoch": 19.44182389937107,
      "grad_norm": 0.14576590061187744,
      "learning_rate": 2.3752441701618833e-06,
      "loss": 0.3355,
      "num_input_tokens_seen": 24288392,
      "step": 37095
    },
    {
      "epoch": 19.444444444444443,
      "grad_norm": 0.10784731060266495,
      "learning_rate": 2.3530320377913027e-06,
      "loss": 0.3952,
      "num_input_tokens_seen": 24291880,
      "step": 37100
    },
    {
      "epoch": 19.44706498951782,
      "grad_norm": 0.10782811790704727,
      "learning_rate": 2.3309240074890213e-06,
      "loss": 0.3708,
      "num_input_tokens_seen": 24295112,
      "step": 37105
    },
    {
      "epoch": 19.449685534591197,
      "grad_norm": 0.17523804306983948,
      "learning_rate": 2.3089200838796176e-06,
      "loss": 0.4273,
      "num_input_tokens_seen": 24298152,
      "step": 37110
    },
    {
      "epoch": 19.45230607966457,
      "grad_norm": 0.13898983597755432,
      "learning_rate": 2.2870202715662426e-06,
      "loss": 0.3506,
      "num_input_tokens_seen": 24302024,
      "step": 37115
    },
    {
      "epoch": 19.454926624737947,
      "grad_norm": 0.2608652412891388,
      "learning_rate": 2.265224575130009e-06,
      "loss": 0.4843,
      "num_input_tokens_seen": 24305480,
      "step": 37120
    },
    {
      "epoch": 19.45754716981132,
      "grad_norm": 0.15492747724056244,
      "learning_rate": 2.2435329991303268e-06,
      "loss": 0.3979,
      "num_input_tokens_seen": 24309800,
      "step": 37125
    },
    {
      "epoch": 19.460167714884697,
      "grad_norm": 0.21295571327209473,
      "learning_rate": 2.2219455481047868e-06,
      "loss": 0.4346,
      "num_input_tokens_seen": 24313096,
      "step": 37130
    },
    {
      "epoch": 19.46278825995807,
      "grad_norm": 0.15708135068416595,
      "learning_rate": 2.2004622265693886e-06,
      "loss": 0.513,
      "num_input_tokens_seen": 24315784,
      "step": 37135
    },
    {
      "epoch": 19.465408805031448,
      "grad_norm": 0.20711611211299896,
      "learning_rate": 2.179083039018037e-06,
      "loss": 0.4727,
      "num_input_tokens_seen": 24318440,
      "step": 37140
    },
    {
      "epoch": 19.46802935010482,
      "grad_norm": 0.15991489589214325,
      "learning_rate": 2.157807989923044e-06,
      "loss": 0.5015,
      "num_input_tokens_seen": 24321544,
      "step": 37145
    },
    {
      "epoch": 19.470649895178198,
      "grad_norm": 0.09417340159416199,
      "learning_rate": 2.1366370837349603e-06,
      "loss": 0.4193,
      "num_input_tokens_seen": 24325192,
      "step": 37150
    },
    {
      "epoch": 19.47327044025157,
      "grad_norm": 0.1609930396080017,
      "learning_rate": 2.1155703248825207e-06,
      "loss": 0.4596,
      "num_input_tokens_seen": 24328072,
      "step": 37155
    },
    {
      "epoch": 19.47589098532495,
      "grad_norm": 0.16514167189598083,
      "learning_rate": 2.094607717772534e-06,
      "loss": 0.2957,
      "num_input_tokens_seen": 24331208,
      "step": 37160
    },
    {
      "epoch": 19.478511530398322,
      "grad_norm": 0.11384130269289017,
      "learning_rate": 2.0737492667902702e-06,
      "loss": 0.3368,
      "num_input_tokens_seen": 24334600,
      "step": 37165
    },
    {
      "epoch": 19.4811320754717,
      "grad_norm": 0.15232343971729279,
      "learning_rate": 2.0529949762989608e-06,
      "loss": 0.5772,
      "num_input_tokens_seen": 24338120,
      "step": 37170
    },
    {
      "epoch": 19.483752620545072,
      "grad_norm": 0.09958839416503906,
      "learning_rate": 2.032344850640244e-06,
      "loss": 0.4277,
      "num_input_tokens_seen": 24341672,
      "step": 37175
    },
    {
      "epoch": 19.48637316561845,
      "grad_norm": 0.2132968306541443,
      "learning_rate": 2.011798894133887e-06,
      "loss": 0.5127,
      "num_input_tokens_seen": 24345512,
      "step": 37180
    },
    {
      "epoch": 19.488993710691823,
      "grad_norm": 0.12070212513208389,
      "learning_rate": 1.9913571110777852e-06,
      "loss": 0.4416,
      "num_input_tokens_seen": 24348616,
      "step": 37185
    },
    {
      "epoch": 19.4916142557652,
      "grad_norm": 0.13490557670593262,
      "learning_rate": 1.971019505748295e-06,
      "loss": 0.3604,
      "num_input_tokens_seen": 24351496,
      "step": 37190
    },
    {
      "epoch": 19.494234800838573,
      "grad_norm": 0.11483024805784225,
      "learning_rate": 1.9507860823996803e-06,
      "loss": 0.4258,
      "num_input_tokens_seen": 24354248,
      "step": 37195
    },
    {
      "epoch": 19.49685534591195,
      "grad_norm": 0.19358859956264496,
      "learning_rate": 1.9306568452645e-06,
      "loss": 0.5794,
      "num_input_tokens_seen": 24357320,
      "step": 37200
    },
    {
      "epoch": 19.499475890985323,
      "grad_norm": 0.12474147975444794,
      "learning_rate": 1.910631798553664e-06,
      "loss": 0.5295,
      "num_input_tokens_seen": 24360520,
      "step": 37205
    },
    {
      "epoch": 19.5020964360587,
      "grad_norm": 0.12455739825963974,
      "learning_rate": 1.8907109464562088e-06,
      "loss": 0.3993,
      "num_input_tokens_seen": 24364552,
      "step": 37210
    },
    {
      "epoch": 19.504716981132077,
      "grad_norm": 0.2145519107580185,
      "learning_rate": 1.870894293139247e-06,
      "loss": 0.3855,
      "num_input_tokens_seen": 24367464,
      "step": 37215
    },
    {
      "epoch": 19.50733752620545,
      "grad_norm": 0.16896814107894897,
      "learning_rate": 1.8511818427482396e-06,
      "loss": 0.473,
      "num_input_tokens_seen": 24370536,
      "step": 37220
    },
    {
      "epoch": 19.509958071278827,
      "grad_norm": 0.0991046354174614,
      "learning_rate": 1.8315735994068327e-06,
      "loss": 0.5735,
      "num_input_tokens_seen": 24374760,
      "step": 37225
    },
    {
      "epoch": 19.5125786163522,
      "grad_norm": 0.21548013389110565,
      "learning_rate": 1.8120695672168009e-06,
      "loss": 0.4576,
      "num_input_tokens_seen": 24377896,
      "step": 37230
    },
    {
      "epoch": 19.515199161425578,
      "grad_norm": 0.1324796825647354,
      "learning_rate": 1.792669750258158e-06,
      "loss": 0.4837,
      "num_input_tokens_seen": 24380392,
      "step": 37235
    },
    {
      "epoch": 19.51781970649895,
      "grad_norm": 0.1713639795780182,
      "learning_rate": 1.7733741525892134e-06,
      "loss": 0.431,
      "num_input_tokens_seen": 24383272,
      "step": 37240
    },
    {
      "epoch": 19.520440251572328,
      "grad_norm": 0.24703428149223328,
      "learning_rate": 1.7541827782462937e-06,
      "loss": 0.5583,
      "num_input_tokens_seen": 24386600,
      "step": 37245
    },
    {
      "epoch": 19.5230607966457,
      "grad_norm": 0.17544178664684296,
      "learning_rate": 1.7350956312440768e-06,
      "loss": 0.4206,
      "num_input_tokens_seen": 24389832,
      "step": 37250
    },
    {
      "epoch": 19.52568134171908,
      "grad_norm": 0.10899873077869415,
      "learning_rate": 1.716112715575313e-06,
      "loss": 0.4374,
      "num_input_tokens_seen": 24393096,
      "step": 37255
    },
    {
      "epoch": 19.528301886792452,
      "grad_norm": 0.14140097796916962,
      "learning_rate": 1.6972340352110481e-06,
      "loss": 0.3978,
      "num_input_tokens_seen": 24396008,
      "step": 37260
    },
    {
      "epoch": 19.53092243186583,
      "grad_norm": 0.14200027287006378,
      "learning_rate": 1.6784595941004565e-06,
      "loss": 0.4823,
      "num_input_tokens_seen": 24398632,
      "step": 37265
    },
    {
      "epoch": 19.533542976939202,
      "grad_norm": 0.12939873337745667,
      "learning_rate": 1.659789396171063e-06,
      "loss": 0.4804,
      "num_input_tokens_seen": 24401992,
      "step": 37270
    },
    {
      "epoch": 19.53616352201258,
      "grad_norm": 0.13011395931243896,
      "learning_rate": 1.6412234453282993e-06,
      "loss": 0.4836,
      "num_input_tokens_seen": 24405384,
      "step": 37275
    },
    {
      "epoch": 19.538784067085953,
      "grad_norm": 0.15124894678592682,
      "learning_rate": 1.622761745456003e-06,
      "loss": 0.4954,
      "num_input_tokens_seen": 24408136,
      "step": 37280
    },
    {
      "epoch": 19.54140461215933,
      "grad_norm": 0.09630131721496582,
      "learning_rate": 1.6044043004161958e-06,
      "loss": 0.5673,
      "num_input_tokens_seen": 24412040,
      "step": 37285
    },
    {
      "epoch": 19.544025157232703,
      "grad_norm": 0.12869001924991608,
      "learning_rate": 1.5861511140489725e-06,
      "loss": 0.4569,
      "num_input_tokens_seen": 24415080,
      "step": 37290
    },
    {
      "epoch": 19.54664570230608,
      "grad_norm": 0.22148990631103516,
      "learning_rate": 1.5680021901727237e-06,
      "loss": 0.4394,
      "num_input_tokens_seen": 24417736,
      "step": 37295
    },
    {
      "epoch": 19.549266247379457,
      "grad_norm": 0.1435387283563614,
      "learning_rate": 1.5499575325840232e-06,
      "loss": 0.5185,
      "num_input_tokens_seen": 24421224,
      "step": 37300
    },
    {
      "epoch": 19.55188679245283,
      "grad_norm": 0.10744936019182205,
      "learning_rate": 1.5320171450576293e-06,
      "loss": 0.4291,
      "num_input_tokens_seen": 24427304,
      "step": 37305
    },
    {
      "epoch": 19.554507337526207,
      "grad_norm": 0.14289849996566772,
      "learning_rate": 1.5141810313463733e-06,
      "loss": 0.4493,
      "num_input_tokens_seen": 24431080,
      "step": 37310
    },
    {
      "epoch": 19.55712788259958,
      "grad_norm": 0.12029200792312622,
      "learning_rate": 1.4964491951814374e-06,
      "loss": 0.4943,
      "num_input_tokens_seen": 24433960,
      "step": 37315
    },
    {
      "epoch": 19.559748427672957,
      "grad_norm": 0.10459645837545395,
      "learning_rate": 1.4788216402720766e-06,
      "loss": 0.3514,
      "num_input_tokens_seen": 24436616,
      "step": 37320
    },
    {
      "epoch": 19.56236897274633,
      "grad_norm": 0.24832111597061157,
      "learning_rate": 1.4612983703058413e-06,
      "loss": 0.4767,
      "num_input_tokens_seen": 24439240,
      "step": 37325
    },
    {
      "epoch": 19.564989517819708,
      "grad_norm": 0.1775939017534256,
      "learning_rate": 1.4438793889483549e-06,
      "loss": 0.4667,
      "num_input_tokens_seen": 24441992,
      "step": 37330
    },
    {
      "epoch": 19.56761006289308,
      "grad_norm": 0.18198204040527344,
      "learning_rate": 1.4265646998434246e-06,
      "loss": 0.3988,
      "num_input_tokens_seen": 24444776,
      "step": 37335
    },
    {
      "epoch": 19.570230607966458,
      "grad_norm": 0.1080944761633873,
      "learning_rate": 1.409354306613153e-06,
      "loss": 0.4323,
      "num_input_tokens_seen": 24447720,
      "step": 37340
    },
    {
      "epoch": 19.57285115303983,
      "grad_norm": 0.08493480831384659,
      "learning_rate": 1.3922482128577718e-06,
      "loss": 0.4273,
      "num_input_tokens_seen": 24452520,
      "step": 37345
    },
    {
      "epoch": 19.57547169811321,
      "grad_norm": 0.1792237013578415,
      "learning_rate": 1.3752464221556404e-06,
      "loss": 0.3804,
      "num_input_tokens_seen": 24454888,
      "step": 37350
    },
    {
      "epoch": 19.578092243186582,
      "grad_norm": 0.17662696540355682,
      "learning_rate": 1.358348938063303e-06,
      "loss": 0.3629,
      "num_input_tokens_seen": 24458152,
      "step": 37355
    },
    {
      "epoch": 19.58071278825996,
      "grad_norm": 0.096638523042202,
      "learning_rate": 1.341555764115543e-06,
      "loss": 0.4616,
      "num_input_tokens_seen": 24460904,
      "step": 37360
    },
    {
      "epoch": 19.583333333333332,
      "grad_norm": 0.13963976502418518,
      "learning_rate": 1.3248669038253835e-06,
      "loss": 0.4003,
      "num_input_tokens_seen": 24464328,
      "step": 37365
    },
    {
      "epoch": 19.58595387840671,
      "grad_norm": 0.1945183128118515,
      "learning_rate": 1.3082823606838656e-06,
      "loss": 0.5159,
      "num_input_tokens_seen": 24468072,
      "step": 37370
    },
    {
      "epoch": 19.588574423480082,
      "grad_norm": 0.1581188589334488,
      "learning_rate": 1.2918021381603251e-06,
      "loss": 0.5159,
      "num_input_tokens_seen": 24472424,
      "step": 37375
    },
    {
      "epoch": 19.59119496855346,
      "grad_norm": 0.150016188621521,
      "learning_rate": 1.275426239702171e-06,
      "loss": 0.2853,
      "num_input_tokens_seen": 24475656,
      "step": 37380
    },
    {
      "epoch": 19.593815513626833,
      "grad_norm": 0.24098677933216095,
      "learning_rate": 1.2591546687351073e-06,
      "loss": 0.3604,
      "num_input_tokens_seen": 24479368,
      "step": 37385
    },
    {
      "epoch": 19.59643605870021,
      "grad_norm": 0.11258790642023087,
      "learning_rate": 1.2429874286629673e-06,
      "loss": 0.3641,
      "num_input_tokens_seen": 24483048,
      "step": 37390
    },
    {
      "epoch": 19.599056603773583,
      "grad_norm": 0.10642459988594055,
      "learning_rate": 1.2269245228677116e-06,
      "loss": 0.4306,
      "num_input_tokens_seen": 24486152,
      "step": 37395
    },
    {
      "epoch": 19.60167714884696,
      "grad_norm": 0.11419163644313812,
      "learning_rate": 1.210965954709542e-06,
      "loss": 0.3954,
      "num_input_tokens_seen": 24489192,
      "step": 37400
    },
    {
      "epoch": 19.604297693920337,
      "grad_norm": 0.14592814445495605,
      "learning_rate": 1.1951117275268431e-06,
      "loss": 0.507,
      "num_input_tokens_seen": 24492392,
      "step": 37405
    },
    {
      "epoch": 19.60691823899371,
      "grad_norm": 0.2543964982032776,
      "learning_rate": 1.1793618446360732e-06,
      "loss": 0.3951,
      "num_input_tokens_seen": 24494760,
      "step": 37410
    },
    {
      "epoch": 19.609538784067087,
      "grad_norm": 0.1845279484987259,
      "learning_rate": 1.1637163093319303e-06,
      "loss": 0.4343,
      "num_input_tokens_seen": 24497672,
      "step": 37415
    },
    {
      "epoch": 19.61215932914046,
      "grad_norm": 0.1302241086959839,
      "learning_rate": 1.1481751248874072e-06,
      "loss": 0.4443,
      "num_input_tokens_seen": 24501704,
      "step": 37420
    },
    {
      "epoch": 19.614779874213838,
      "grad_norm": 0.12696565687656403,
      "learning_rate": 1.1327382945533482e-06,
      "loss": 0.3846,
      "num_input_tokens_seen": 24505576,
      "step": 37425
    },
    {
      "epoch": 19.61740041928721,
      "grad_norm": 0.14336839318275452,
      "learning_rate": 1.1174058215591143e-06,
      "loss": 0.4744,
      "num_input_tokens_seen": 24508616,
      "step": 37430
    },
    {
      "epoch": 19.620020964360588,
      "grad_norm": 0.15582139790058136,
      "learning_rate": 1.1021777091119732e-06,
      "loss": 0.436,
      "num_input_tokens_seen": 24511528,
      "step": 37435
    },
    {
      "epoch": 19.62264150943396,
      "grad_norm": 0.1969323456287384,
      "learning_rate": 1.0870539603975994e-06,
      "loss": 0.526,
      "num_input_tokens_seen": 24514632,
      "step": 37440
    },
    {
      "epoch": 19.62526205450734,
      "grad_norm": 0.1655086725950241,
      "learning_rate": 1.0720345785795727e-06,
      "loss": 0.4723,
      "num_input_tokens_seen": 24518088,
      "step": 37445
    },
    {
      "epoch": 19.627882599580712,
      "grad_norm": 0.14663049578666687,
      "learning_rate": 1.0571195667998802e-06,
      "loss": 0.4334,
      "num_input_tokens_seen": 24520904,
      "step": 37450
    },
    {
      "epoch": 19.63050314465409,
      "grad_norm": 0.16111429035663605,
      "learning_rate": 1.042308928178526e-06,
      "loss": 0.4279,
      "num_input_tokens_seen": 24524104,
      "step": 37455
    },
    {
      "epoch": 19.633123689727462,
      "grad_norm": 0.16259345412254333,
      "learning_rate": 1.0276026658137538e-06,
      "loss": 0.4793,
      "num_input_tokens_seen": 24527624,
      "step": 37460
    },
    {
      "epoch": 19.63574423480084,
      "grad_norm": 0.1400260031223297,
      "learning_rate": 1.013000782781881e-06,
      "loss": 0.4408,
      "num_input_tokens_seen": 24529960,
      "step": 37465
    },
    {
      "epoch": 19.638364779874212,
      "grad_norm": 0.2164056897163391,
      "learning_rate": 9.985032821375195e-07,
      "loss": 0.7454,
      "num_input_tokens_seen": 24532616,
      "step": 37470
    },
    {
      "epoch": 19.64098532494759,
      "grad_norm": 0.25474679470062256,
      "learning_rate": 9.841101669134101e-07,
      "loss": 0.332,
      "num_input_tokens_seen": 24535880,
      "step": 37475
    },
    {
      "epoch": 19.643605870020963,
      "grad_norm": 0.14122171700000763,
      "learning_rate": 9.69821440120311e-07,
      "loss": 0.4529,
      "num_input_tokens_seen": 24540296,
      "step": 37480
    },
    {
      "epoch": 19.64622641509434,
      "grad_norm": 0.08993542939424515,
      "learning_rate": 9.556371047473866e-07,
      "loss": 0.3966,
      "num_input_tokens_seen": 24543496,
      "step": 37485
    },
    {
      "epoch": 19.648846960167717,
      "grad_norm": 0.29364848136901855,
      "learning_rate": 9.415571637617082e-07,
      "loss": 0.3647,
      "num_input_tokens_seen": 24550056,
      "step": 37490
    },
    {
      "epoch": 19.65146750524109,
      "grad_norm": 0.13239221274852753,
      "learning_rate": 9.275816201087528e-07,
      "loss": 0.4293,
      "num_input_tokens_seen": 24553608,
      "step": 37495
    },
    {
      "epoch": 19.654088050314467,
      "grad_norm": 0.35773709416389465,
      "learning_rate": 9.137104767120153e-07,
      "loss": 0.5931,
      "num_input_tokens_seen": 24557224,
      "step": 37500
    },
    {
      "epoch": 19.65670859538784,
      "grad_norm": 0.13875381648540497,
      "learning_rate": 8.999437364731189e-07,
      "loss": 0.6089,
      "num_input_tokens_seen": 24560616,
      "step": 37505
    },
    {
      "epoch": 19.659329140461217,
      "grad_norm": 0.10838878154754639,
      "learning_rate": 8.862814022720378e-07,
      "loss": 0.7024,
      "num_input_tokens_seen": 24563656,
      "step": 37510
    },
    {
      "epoch": 19.66194968553459,
      "grad_norm": 0.12000979483127594,
      "learning_rate": 8.727234769666526e-07,
      "loss": 0.4006,
      "num_input_tokens_seen": 24566312,
      "step": 37515
    },
    {
      "epoch": 19.664570230607968,
      "grad_norm": 0.13636358082294464,
      "learning_rate": 8.592699633931389e-07,
      "loss": 0.5473,
      "num_input_tokens_seen": 24569640,
      "step": 37520
    },
    {
      "epoch": 19.66719077568134,
      "grad_norm": 0.16996367275714874,
      "learning_rate": 8.459208643659122e-07,
      "loss": 0.5136,
      "num_input_tokens_seen": 24572264,
      "step": 37525
    },
    {
      "epoch": 19.669811320754718,
      "grad_norm": 0.15700441598892212,
      "learning_rate": 8.326761826773499e-07,
      "loss": 0.4166,
      "num_input_tokens_seen": 24575048,
      "step": 37530
    },
    {
      "epoch": 19.67243186582809,
      "grad_norm": 0.17537224292755127,
      "learning_rate": 8.195359210981246e-07,
      "loss": 0.4091,
      "num_input_tokens_seen": 24577704,
      "step": 37535
    },
    {
      "epoch": 19.67505241090147,
      "grad_norm": 0.20671094954013824,
      "learning_rate": 8.065000823770929e-07,
      "loss": 0.4396,
      "num_input_tokens_seen": 24581352,
      "step": 37540
    },
    {
      "epoch": 19.677672955974842,
      "grad_norm": 0.14306090772151947,
      "learning_rate": 7.935686692410737e-07,
      "loss": 0.4178,
      "num_input_tokens_seen": 24584168,
      "step": 37545
    },
    {
      "epoch": 19.68029350104822,
      "grad_norm": 0.1519942730665207,
      "learning_rate": 7.807416843952364e-07,
      "loss": 0.3323,
      "num_input_tokens_seen": 24588200,
      "step": 37550
    },
    {
      "epoch": 19.682914046121592,
      "grad_norm": 0.24421675503253937,
      "learning_rate": 7.68019130522879e-07,
      "loss": 0.5631,
      "num_input_tokens_seen": 24590568,
      "step": 37555
    },
    {
      "epoch": 19.68553459119497,
      "grad_norm": 0.1689406931400299,
      "learning_rate": 7.554010102853726e-07,
      "loss": 0.394,
      "num_input_tokens_seen": 24593320,
      "step": 37560
    },
    {
      "epoch": 19.688155136268342,
      "grad_norm": 0.2520756721496582,
      "learning_rate": 7.428873263223279e-07,
      "loss": 0.5447,
      "num_input_tokens_seen": 24595848,
      "step": 37565
    },
    {
      "epoch": 19.69077568134172,
      "grad_norm": 0.12723782658576965,
      "learning_rate": 7.304780812513734e-07,
      "loss": 0.3625,
      "num_input_tokens_seen": 24598600,
      "step": 37570
    },
    {
      "epoch": 19.693396226415093,
      "grad_norm": 0.1632203310728073,
      "learning_rate": 7.181732776684325e-07,
      "loss": 0.4306,
      "num_input_tokens_seen": 24601544,
      "step": 37575
    },
    {
      "epoch": 19.69601677148847,
      "grad_norm": 0.15065442025661469,
      "learning_rate": 7.059729181475572e-07,
      "loss": 0.4179,
      "num_input_tokens_seen": 24604552,
      "step": 37580
    },
    {
      "epoch": 19.698637316561843,
      "grad_norm": 0.17586790025234222,
      "learning_rate": 6.938770052409282e-07,
      "loss": 0.5022,
      "num_input_tokens_seen": 24607432,
      "step": 37585
    },
    {
      "epoch": 19.70125786163522,
      "grad_norm": 0.22964034974575043,
      "learning_rate": 6.81885541478855e-07,
      "loss": 0.4782,
      "num_input_tokens_seen": 24611464,
      "step": 37590
    },
    {
      "epoch": 19.703878406708597,
      "grad_norm": 0.18390409648418427,
      "learning_rate": 6.699985293697197e-07,
      "loss": 0.4861,
      "num_input_tokens_seen": 24614344,
      "step": 37595
    },
    {
      "epoch": 19.70649895178197,
      "grad_norm": 0.1723794788122177,
      "learning_rate": 6.582159714003111e-07,
      "loss": 0.484,
      "num_input_tokens_seen": 24617864,
      "step": 37600
    },
    {
      "epoch": 19.709119496855347,
      "grad_norm": 0.19122213125228882,
      "learning_rate": 6.465378700352687e-07,
      "loss": 0.3802,
      "num_input_tokens_seen": 24620904,
      "step": 37605
    },
    {
      "epoch": 19.71174004192872,
      "grad_norm": 0.24458415806293488,
      "learning_rate": 6.349642277176382e-07,
      "loss": 0.3046,
      "num_input_tokens_seen": 24623560,
      "step": 37610
    },
    {
      "epoch": 19.714360587002098,
      "grad_norm": 0.1836605817079544,
      "learning_rate": 6.23495046868372e-07,
      "loss": 0.3874,
      "num_input_tokens_seen": 24627016,
      "step": 37615
    },
    {
      "epoch": 19.71698113207547,
      "grad_norm": 0.10660605132579803,
      "learning_rate": 6.121303298868286e-07,
      "loss": 0.3777,
      "num_input_tokens_seen": 24630600,
      "step": 37620
    },
    {
      "epoch": 19.719601677148848,
      "grad_norm": 0.17301993072032928,
      "learning_rate": 6.008700791502175e-07,
      "loss": 0.5426,
      "num_input_tokens_seen": 24634248,
      "step": 37625
    },
    {
      "epoch": 19.72222222222222,
      "grad_norm": 0.13699153065681458,
      "learning_rate": 5.8971429701421e-07,
      "loss": 0.3276,
      "num_input_tokens_seen": 24637352,
      "step": 37630
    },
    {
      "epoch": 19.7248427672956,
      "grad_norm": 0.1653711050748825,
      "learning_rate": 5.786629858123283e-07,
      "loss": 0.435,
      "num_input_tokens_seen": 24639912,
      "step": 37635
    },
    {
      "epoch": 19.72746331236897,
      "grad_norm": 0.15119564533233643,
      "learning_rate": 5.677161478565008e-07,
      "loss": 0.3397,
      "num_input_tokens_seen": 24642568,
      "step": 37640
    },
    {
      "epoch": 19.73008385744235,
      "grad_norm": 0.13671216368675232,
      "learning_rate": 5.56873785436618e-07,
      "loss": 0.3255,
      "num_input_tokens_seen": 24645416,
      "step": 37645
    },
    {
      "epoch": 19.732704402515722,
      "grad_norm": 0.17061616480350494,
      "learning_rate": 5.4613590082081e-07,
      "loss": 0.4195,
      "num_input_tokens_seen": 24648360,
      "step": 37650
    },
    {
      "epoch": 19.7353249475891,
      "grad_norm": 0.3172617554664612,
      "learning_rate": 5.355024962552801e-07,
      "loss": 0.4968,
      "num_input_tokens_seen": 24650728,
      "step": 37655
    },
    {
      "epoch": 19.737945492662472,
      "grad_norm": 0.4107280671596527,
      "learning_rate": 5.249735739644157e-07,
      "loss": 0.5147,
      "num_input_tokens_seen": 24653928,
      "step": 37660
    },
    {
      "epoch": 19.74056603773585,
      "grad_norm": 0.13610705733299255,
      "learning_rate": 5.145491361508436e-07,
      "loss": 0.3989,
      "num_input_tokens_seen": 24657608,
      "step": 37665
    },
    {
      "epoch": 19.743186582809223,
      "grad_norm": 0.2984922230243683,
      "learning_rate": 5.042291849950975e-07,
      "loss": 0.327,
      "num_input_tokens_seen": 24660744,
      "step": 37670
    },
    {
      "epoch": 19.7458071278826,
      "grad_norm": 0.17417563498020172,
      "learning_rate": 4.940137226560615e-07,
      "loss": 0.4067,
      "num_input_tokens_seen": 24664136,
      "step": 37675
    },
    {
      "epoch": 19.748427672955973,
      "grad_norm": 0.14132650196552277,
      "learning_rate": 4.839027512706928e-07,
      "loss": 0.4415,
      "num_input_tokens_seen": 24666920,
      "step": 37680
    },
    {
      "epoch": 19.75104821802935,
      "grad_norm": 0.22267180681228638,
      "learning_rate": 4.7389627295407743e-07,
      "loss": 0.4559,
      "num_input_tokens_seen": 24669800,
      "step": 37685
    },
    {
      "epoch": 19.753668763102727,
      "grad_norm": 0.10208244621753693,
      "learning_rate": 4.6399428979948534e-07,
      "loss": 0.4294,
      "num_input_tokens_seen": 24672488,
      "step": 37690
    },
    {
      "epoch": 19.7562893081761,
      "grad_norm": 0.1536387950181961,
      "learning_rate": 4.541968038782596e-07,
      "loss": 0.4655,
      "num_input_tokens_seen": 24676168,
      "step": 37695
    },
    {
      "epoch": 19.758909853249477,
      "grad_norm": 0.3094363212585449,
      "learning_rate": 4.445038172399829e-07,
      "loss": 0.5222,
      "num_input_tokens_seen": 24679176,
      "step": 37700
    },
    {
      "epoch": 19.76153039832285,
      "grad_norm": 0.19586297869682312,
      "learning_rate": 4.3491533191225563e-07,
      "loss": 0.3447,
      "num_input_tokens_seen": 24681864,
      "step": 37705
    },
    {
      "epoch": 19.764150943396228,
      "grad_norm": 0.13600529730319977,
      "learning_rate": 4.254313499009177e-07,
      "loss": 0.4929,
      "num_input_tokens_seen": 24684712,
      "step": 37710
    },
    {
      "epoch": 19.7667714884696,
      "grad_norm": 0.16832387447357178,
      "learning_rate": 4.1605187318982664e-07,
      "loss": 0.5149,
      "num_input_tokens_seen": 24687336,
      "step": 37715
    },
    {
      "epoch": 19.769392033542978,
      "grad_norm": 0.13599511981010437,
      "learning_rate": 4.067769037411906e-07,
      "loss": 0.32,
      "num_input_tokens_seen": 24690664,
      "step": 37720
    },
    {
      "epoch": 19.77201257861635,
      "grad_norm": 0.1408039629459381,
      "learning_rate": 3.9760644349517984e-07,
      "loss": 0.4732,
      "num_input_tokens_seen": 24694216,
      "step": 37725
    },
    {
      "epoch": 19.77463312368973,
      "grad_norm": 0.30030307173728943,
      "learning_rate": 3.885404943700932e-07,
      "loss": 0.4679,
      "num_input_tokens_seen": 24696936,
      "step": 37730
    },
    {
      "epoch": 19.7772536687631,
      "grad_norm": 0.1381743997335434,
      "learning_rate": 3.795790582624692e-07,
      "loss": 0.3807,
      "num_input_tokens_seen": 24699400,
      "step": 37735
    },
    {
      "epoch": 19.77987421383648,
      "grad_norm": 0.14254209399223328,
      "learning_rate": 3.707221370469749e-07,
      "loss": 0.4702,
      "num_input_tokens_seen": 24702376,
      "step": 37740
    },
    {
      "epoch": 19.782494758909852,
      "grad_norm": 0.1580962836742401,
      "learning_rate": 3.6196973257629494e-07,
      "loss": 0.3502,
      "num_input_tokens_seen": 24706568,
      "step": 37745
    },
    {
      "epoch": 19.78511530398323,
      "grad_norm": 0.10518388450145721,
      "learning_rate": 3.533218466813537e-07,
      "loss": 0.4598,
      "num_input_tokens_seen": 24709384,
      "step": 37750
    },
    {
      "epoch": 19.787735849056602,
      "grad_norm": 0.14201809465885162,
      "learning_rate": 3.447784811712595e-07,
      "loss": 0.3839,
      "num_input_tokens_seen": 24712552,
      "step": 37755
    },
    {
      "epoch": 19.79035639412998,
      "grad_norm": 0.14764568209648132,
      "learning_rate": 3.363396378331385e-07,
      "loss": 0.3107,
      "num_input_tokens_seen": 24715400,
      "step": 37760
    },
    {
      "epoch": 19.792976939203353,
      "grad_norm": 0.20410676300525665,
      "learning_rate": 3.280053184323006e-07,
      "loss": 0.4568,
      "num_input_tokens_seen": 24718376,
      "step": 37765
    },
    {
      "epoch": 19.79559748427673,
      "grad_norm": 0.15977594256401062,
      "learning_rate": 3.1977552471218476e-07,
      "loss": 0.5715,
      "num_input_tokens_seen": 24721416,
      "step": 37770
    },
    {
      "epoch": 19.798218029350103,
      "grad_norm": 0.17055633664131165,
      "learning_rate": 3.116502583943581e-07,
      "loss": 0.4629,
      "num_input_tokens_seen": 24724232,
      "step": 37775
    },
    {
      "epoch": 19.80083857442348,
      "grad_norm": 0.1367131918668747,
      "learning_rate": 3.036295211785722e-07,
      "loss": 0.5984,
      "num_input_tokens_seen": 24731656,
      "step": 37780
    },
    {
      "epoch": 19.803459119496857,
      "grad_norm": 0.14932407438755035,
      "learning_rate": 2.957133147425961e-07,
      "loss": 0.5101,
      "num_input_tokens_seen": 24734344,
      "step": 37785
    },
    {
      "epoch": 19.80607966457023,
      "grad_norm": 0.22572989761829376,
      "learning_rate": 2.879016407425494e-07,
      "loss": 0.4073,
      "num_input_tokens_seen": 24737416,
      "step": 37790
    },
    {
      "epoch": 19.808700209643607,
      "grad_norm": 0.10462568700313568,
      "learning_rate": 2.8019450081240295e-07,
      "loss": 0.3778,
      "num_input_tokens_seen": 24740648,
      "step": 37795
    },
    {
      "epoch": 19.81132075471698,
      "grad_norm": 0.08903486281633377,
      "learning_rate": 2.7259189656447803e-07,
      "loss": 0.3535,
      "num_input_tokens_seen": 24744712,
      "step": 37800
    },
    {
      "epoch": 19.813941299790358,
      "grad_norm": 0.14551962912082672,
      "learning_rate": 2.650938295891692e-07,
      "loss": 0.3883,
      "num_input_tokens_seen": 24747592,
      "step": 37805
    },
    {
      "epoch": 19.81656184486373,
      "grad_norm": 0.142337828874588,
      "learning_rate": 2.5770030145494395e-07,
      "loss": 0.382,
      "num_input_tokens_seen": 24750920,
      "step": 37810
    },
    {
      "epoch": 19.819182389937108,
      "grad_norm": 0.10980501770973206,
      "learning_rate": 2.504113137083985e-07,
      "loss": 0.3801,
      "num_input_tokens_seen": 24756200,
      "step": 37815
    },
    {
      "epoch": 19.82180293501048,
      "grad_norm": 0.17025898396968842,
      "learning_rate": 2.4322686787442425e-07,
      "loss": 0.4084,
      "num_input_tokens_seen": 24759144,
      "step": 37820
    },
    {
      "epoch": 19.82442348008386,
      "grad_norm": 0.20324283838272095,
      "learning_rate": 2.3614696545581904e-07,
      "loss": 0.4071,
      "num_input_tokens_seen": 24761992,
      "step": 37825
    },
    {
      "epoch": 19.82704402515723,
      "grad_norm": 0.20589588582515717,
      "learning_rate": 2.2917160793367585e-07,
      "loss": 0.434,
      "num_input_tokens_seen": 24764744,
      "step": 37830
    },
    {
      "epoch": 19.82966457023061,
      "grad_norm": 0.1646200567483902,
      "learning_rate": 2.2230079676716086e-07,
      "loss": 0.5165,
      "num_input_tokens_seen": 24767336,
      "step": 37835
    },
    {
      "epoch": 19.832285115303982,
      "grad_norm": 0.13118676841259003,
      "learning_rate": 2.1553453339356875e-07,
      "loss": 0.4396,
      "num_input_tokens_seen": 24770344,
      "step": 37840
    },
    {
      "epoch": 19.83490566037736,
      "grad_norm": 0.201149120926857,
      "learning_rate": 2.0887281922826738e-07,
      "loss": 0.4717,
      "num_input_tokens_seen": 24773704,
      "step": 37845
    },
    {
      "epoch": 19.837526205450732,
      "grad_norm": 0.18521073460578918,
      "learning_rate": 2.023156556648642e-07,
      "loss": 0.4201,
      "num_input_tokens_seen": 24776840,
      "step": 37850
    },
    {
      "epoch": 19.84014675052411,
      "grad_norm": 0.17302171885967255,
      "learning_rate": 1.9586304407503975e-07,
      "loss": 0.4535,
      "num_input_tokens_seen": 24780904,
      "step": 37855
    },
    {
      "epoch": 19.842767295597483,
      "grad_norm": 0.12511920928955078,
      "learning_rate": 1.8951498580860315e-07,
      "loss": 0.3967,
      "num_input_tokens_seen": 24784104,
      "step": 37860
    },
    {
      "epoch": 19.84538784067086,
      "grad_norm": 0.10125318169593811,
      "learning_rate": 1.832714821934922e-07,
      "loss": 0.3925,
      "num_input_tokens_seen": 24788712,
      "step": 37865
    },
    {
      "epoch": 19.848008385744233,
      "grad_norm": 0.17461691796779633,
      "learning_rate": 1.7713253453577328e-07,
      "loss": 0.3871,
      "num_input_tokens_seen": 24791784,
      "step": 37870
    },
    {
      "epoch": 19.85062893081761,
      "grad_norm": 0.14357805252075195,
      "learning_rate": 1.7109814411964132e-07,
      "loss": 0.5115,
      "num_input_tokens_seen": 24795016,
      "step": 37875
    },
    {
      "epoch": 19.853249475890987,
      "grad_norm": 0.1917751431465149,
      "learning_rate": 1.651683122074754e-07,
      "loss": 0.4774,
      "num_input_tokens_seen": 24798600,
      "step": 37880
    },
    {
      "epoch": 19.85587002096436,
      "grad_norm": 0.3067232370376587,
      "learning_rate": 1.5934304003961675e-07,
      "loss": 0.511,
      "num_input_tokens_seen": 24801288,
      "step": 37885
    },
    {
      "epoch": 19.858490566037737,
      "grad_norm": 0.1223369911313057,
      "learning_rate": 1.5362232883475713e-07,
      "loss": 0.3803,
      "num_input_tokens_seen": 24803976,
      "step": 37890
    },
    {
      "epoch": 19.86111111111111,
      "grad_norm": 0.24593666195869446,
      "learning_rate": 1.4800617978949492e-07,
      "loss": 0.5029,
      "num_input_tokens_seen": 24806632,
      "step": 37895
    },
    {
      "epoch": 19.863731656184488,
      "grad_norm": 0.15632961690425873,
      "learning_rate": 1.424945940787792e-07,
      "loss": 0.3478,
      "num_input_tokens_seen": 24809160,
      "step": 37900
    },
    {
      "epoch": 19.86635220125786,
      "grad_norm": 0.13187289237976074,
      "learning_rate": 1.3708757285552098e-07,
      "loss": 0.5061,
      "num_input_tokens_seen": 24812584,
      "step": 37905
    },
    {
      "epoch": 19.868972746331238,
      "grad_norm": 0.16701731085777283,
      "learning_rate": 1.3178511725076004e-07,
      "loss": 0.5318,
      "num_input_tokens_seen": 24816104,
      "step": 37910
    },
    {
      "epoch": 19.87159329140461,
      "grad_norm": 0.17810219526290894,
      "learning_rate": 1.265872283738312e-07,
      "loss": 0.4369,
      "num_input_tokens_seen": 24819112,
      "step": 37915
    },
    {
      "epoch": 19.87421383647799,
      "grad_norm": 0.21862560510635376,
      "learning_rate": 1.2149390731192033e-07,
      "loss": 0.3261,
      "num_input_tokens_seen": 24822504,
      "step": 37920
    },
    {
      "epoch": 19.87683438155136,
      "grad_norm": 0.146489679813385,
      "learning_rate": 1.1650515513061955e-07,
      "loss": 0.3822,
      "num_input_tokens_seen": 24825224,
      "step": 37925
    },
    {
      "epoch": 19.87945492662474,
      "grad_norm": 0.30584052205085754,
      "learning_rate": 1.1162097287342743e-07,
      "loss": 0.5135,
      "num_input_tokens_seen": 24828104,
      "step": 37930
    },
    {
      "epoch": 19.882075471698112,
      "grad_norm": 0.0900186076760292,
      "learning_rate": 1.0684136156213775e-07,
      "loss": 0.3931,
      "num_input_tokens_seen": 24831592,
      "step": 37935
    },
    {
      "epoch": 19.88469601677149,
      "grad_norm": 0.14272435009479523,
      "learning_rate": 1.0216632219650634e-07,
      "loss": 0.4654,
      "num_input_tokens_seen": 24834824,
      "step": 37940
    },
    {
      "epoch": 19.887316561844862,
      "grad_norm": 0.15706312656402588,
      "learning_rate": 9.759585575458418e-08,
      "loss": 0.4507,
      "num_input_tokens_seen": 24838184,
      "step": 37945
    },
    {
      "epoch": 19.88993710691824,
      "grad_norm": 0.1201331838965416,
      "learning_rate": 9.312996319238432e-08,
      "loss": 0.3944,
      "num_input_tokens_seen": 24841576,
      "step": 37950
    },
    {
      "epoch": 19.892557651991613,
      "grad_norm": 0.29778164625167847,
      "learning_rate": 8.876864544421493e-08,
      "loss": 0.4949,
      "num_input_tokens_seen": 24844232,
      "step": 37955
    },
    {
      "epoch": 19.89517819706499,
      "grad_norm": 0.13282646238803864,
      "learning_rate": 8.451190342229077e-08,
      "loss": 0.3763,
      "num_input_tokens_seen": 24847144,
      "step": 37960
    },
    {
      "epoch": 19.897798742138363,
      "grad_norm": 0.21694494783878326,
      "learning_rate": 8.035973801717722e-08,
      "loss": 0.4322,
      "num_input_tokens_seen": 24850568,
      "step": 37965
    },
    {
      "epoch": 19.90041928721174,
      "grad_norm": 0.17607644200325012,
      "learning_rate": 7.631215009740178e-08,
      "loss": 0.3356,
      "num_input_tokens_seen": 24852808,
      "step": 37970
    },
    {
      "epoch": 19.903039832285117,
      "grad_norm": 0.14723512530326843,
      "learning_rate": 7.236914050973153e-08,
      "loss": 0.5061,
      "num_input_tokens_seen": 24856744,
      "step": 37975
    },
    {
      "epoch": 19.90566037735849,
      "grad_norm": 0.16093643009662628,
      "learning_rate": 6.853071007895117e-08,
      "loss": 0.4624,
      "num_input_tokens_seen": 24860296,
      "step": 37980
    },
    {
      "epoch": 19.908280922431867,
      "grad_norm": 0.13110589981079102,
      "learning_rate": 6.479685960797399e-08,
      "loss": 0.3917,
      "num_input_tokens_seen": 24863560,
      "step": 37985
    },
    {
      "epoch": 19.91090146750524,
      "grad_norm": 0.14524534344673157,
      "learning_rate": 6.116758987800841e-08,
      "loss": 0.363,
      "num_input_tokens_seen": 24866344,
      "step": 37990
    },
    {
      "epoch": 19.913522012578618,
      "grad_norm": 0.11608696728944778,
      "learning_rate": 5.7642901648113924e-08,
      "loss": 0.4618,
      "num_input_tokens_seen": 24869800,
      "step": 37995
    },
    {
      "epoch": 19.91614255765199,
      "grad_norm": 0.20149989426136017,
      "learning_rate": 5.422279565570065e-08,
      "loss": 0.3622,
      "num_input_tokens_seen": 24872264,
      "step": 38000
    },
    {
      "epoch": 19.918763102725368,
      "grad_norm": 0.16675692796707153,
      "learning_rate": 5.090727261619632e-08,
      "loss": 0.4558,
      "num_input_tokens_seen": 24875816,
      "step": 38005
    },
    {
      "epoch": 19.92138364779874,
      "grad_norm": 0.14562591910362244,
      "learning_rate": 4.7696333223212765e-08,
      "loss": 0.4209,
      "num_input_tokens_seen": 24878856,
      "step": 38010
    },
    {
      "epoch": 19.92400419287212,
      "grad_norm": 0.20289258658885956,
      "learning_rate": 4.4589978148323884e-08,
      "loss": 0.4151,
      "num_input_tokens_seen": 24881864,
      "step": 38015
    },
    {
      "epoch": 19.92662473794549,
      "grad_norm": 0.2707899510860443,
      "learning_rate": 4.1588208041454244e-08,
      "loss": 0.4558,
      "num_input_tokens_seen": 24884488,
      "step": 38020
    },
    {
      "epoch": 19.92924528301887,
      "grad_norm": 0.13826416432857513,
      "learning_rate": 3.8691023530545985e-08,
      "loss": 0.3358,
      "num_input_tokens_seen": 24887944,
      "step": 38025
    },
    {
      "epoch": 19.931865828092242,
      "grad_norm": 0.14105457067489624,
      "learning_rate": 3.589842522155884e-08,
      "loss": 0.4284,
      "num_input_tokens_seen": 24891400,
      "step": 38030
    },
    {
      "epoch": 19.93448637316562,
      "grad_norm": 0.20381376147270203,
      "learning_rate": 3.321041369874767e-08,
      "loss": 0.3623,
      "num_input_tokens_seen": 24893672,
      "step": 38035
    },
    {
      "epoch": 19.937106918238992,
      "grad_norm": 0.11850643157958984,
      "learning_rate": 3.0626989524384916e-08,
      "loss": 0.4336,
      "num_input_tokens_seen": 24897544,
      "step": 38040
    },
    {
      "epoch": 19.93972746331237,
      "grad_norm": 0.0847725123167038,
      "learning_rate": 2.8148153238927167e-08,
      "loss": 0.5873,
      "num_input_tokens_seen": 24900904,
      "step": 38045
    },
    {
      "epoch": 19.942348008385743,
      "grad_norm": 0.09078110009431839,
      "learning_rate": 2.5773905360904072e-08,
      "loss": 0.3799,
      "num_input_tokens_seen": 24905064,
      "step": 38050
    },
    {
      "epoch": 19.94496855345912,
      "grad_norm": 0.10407296568155289,
      "learning_rate": 2.3504246386918392e-08,
      "loss": 0.4358,
      "num_input_tokens_seen": 24908392,
      "step": 38055
    },
    {
      "epoch": 19.947589098532493,
      "grad_norm": 0.11531876772642136,
      "learning_rate": 2.133917679186803e-08,
      "loss": 0.3958,
      "num_input_tokens_seen": 24911336,
      "step": 38060
    },
    {
      "epoch": 19.95020964360587,
      "grad_norm": 0.13999757170677185,
      "learning_rate": 1.9278697028557447e-08,
      "loss": 0.3703,
      "num_input_tokens_seen": 24915880,
      "step": 38065
    },
    {
      "epoch": 19.952830188679247,
      "grad_norm": 0.1008361428976059,
      "learning_rate": 1.7322807528086238e-08,
      "loss": 0.545,
      "num_input_tokens_seen": 24919464,
      "step": 38070
    },
    {
      "epoch": 19.95545073375262,
      "grad_norm": 0.1575641632080078,
      "learning_rate": 1.547150869957159e-08,
      "loss": 0.2569,
      "num_input_tokens_seen": 24922312,
      "step": 38075
    },
    {
      "epoch": 19.958071278825997,
      "grad_norm": 0.12875016033649445,
      "learning_rate": 1.3724800930314806e-08,
      "loss": 0.4558,
      "num_input_tokens_seen": 24925928,
      "step": 38080
    },
    {
      "epoch": 19.96069182389937,
      "grad_norm": 0.2308424860239029,
      "learning_rate": 1.2082684585634773e-08,
      "loss": 0.3754,
      "num_input_tokens_seen": 24929224,
      "step": 38085
    },
    {
      "epoch": 19.963312368972748,
      "grad_norm": 0.11795154213905334,
      "learning_rate": 1.0545160009145516e-08,
      "loss": 0.3613,
      "num_input_tokens_seen": 24931752,
      "step": 38090
    },
    {
      "epoch": 19.96593291404612,
      "grad_norm": 0.17645113170146942,
      "learning_rate": 9.112227522423133e-09,
      "loss": 0.6552,
      "num_input_tokens_seen": 24934504,
      "step": 38095
    },
    {
      "epoch": 19.968553459119498,
      "grad_norm": 0.1564110517501831,
      "learning_rate": 7.783887425172331e-09,
      "loss": 0.5286,
      "num_input_tokens_seen": 24937512,
      "step": 38100
    },
    {
      "epoch": 19.97117400419287,
      "grad_norm": 0.11411294341087341,
      "learning_rate": 6.560139995392955e-09,
      "loss": 0.3216,
      "num_input_tokens_seen": 24940520,
      "step": 38105
    },
    {
      "epoch": 19.97379454926625,
      "grad_norm": 0.13852360844612122,
      "learning_rate": 5.440985488935901e-09,
      "loss": 0.3609,
      "num_input_tokens_seen": 24942888,
      "step": 38110
    },
    {
      "epoch": 19.97641509433962,
      "grad_norm": 0.19775071740150452,
      "learning_rate": 4.426424140058227e-09,
      "loss": 0.4675,
      "num_input_tokens_seen": 24946408,
      "step": 38115
    },
    {
      "epoch": 19.979035639413,
      "grad_norm": 0.24441374838352203,
      "learning_rate": 3.5164561608680424e-09,
      "loss": 0.6317,
      "num_input_tokens_seen": 24948968,
      "step": 38120
    },
    {
      "epoch": 19.981656184486372,
      "grad_norm": 0.1451866328716278,
      "learning_rate": 2.7110817417685953e-09,
      "loss": 0.3686,
      "num_input_tokens_seen": 24951752,
      "step": 38125
    },
    {
      "epoch": 19.98427672955975,
      "grad_norm": 0.17790935933589935,
      "learning_rate": 2.010301051291741e-09,
      "loss": 0.4576,
      "num_input_tokens_seen": 24954696,
      "step": 38130
    },
    {
      "epoch": 19.986897274633122,
      "grad_norm": 0.21002013981342316,
      "learning_rate": 1.4141142359314074e-09,
      "loss": 0.4868,
      "num_input_tokens_seen": 24959048,
      "step": 38135
    },
    {
      "epoch": 19.9895178197065,
      "grad_norm": 0.1230672299861908,
      "learning_rate": 9.22521420476663e-10,
      "loss": 0.31,
      "num_input_tokens_seen": 24961640,
      "step": 38140
    },
    {
      "epoch": 19.992138364779873,
      "grad_norm": 0.2157386839389801,
      "learning_rate": 5.355227077341596e-10,
      "loss": 0.3882,
      "num_input_tokens_seen": 24963976,
      "step": 38145
    },
    {
      "epoch": 19.99475890985325,
      "grad_norm": 0.1601961851119995,
      "learning_rate": 2.5311817863915566e-10,
      "loss": 0.3728,
      "num_input_tokens_seen": 24966760,
      "step": 38150
    },
    {
      "epoch": 19.997379454926623,
      "grad_norm": 0.11784535646438599,
      "learning_rate": 7.53078923110273e-11,
      "loss": 0.3599,
      "num_input_tokens_seen": 24970216,
      "step": 38155
    },
    {
      "epoch": 20.0,
      "grad_norm": 2.6510984897613525,
      "learning_rate": 2.0918859422458526e-12,
      "loss": 0.7746,
      "num_input_tokens_seen": 24973864,
      "step": 38160
    },
    {
      "epoch": 20.0,
      "eval_loss": 0.4553232491016388,
      "eval_runtime": 13.4328,
      "eval_samples_per_second": 63.129,
      "eval_steps_per_second": 15.782,
      "num_input_tokens_seen": 24973864,
      "step": 38160
    },
    {
      "epoch": 20.0,
      "num_input_tokens_seen": 24973864,
      "step": 38160,
      "total_flos": 1.1245618085326356e+18,
      "train_loss": 0.46577457276405276,
      "train_runtime": 5860.5669,
      "train_samples_per_second": 26.035,
      "train_steps_per_second": 6.511
    }
  ],
  "logging_steps": 5,
  "max_steps": 38160,
  "num_input_tokens_seen": 24973864,
  "num_train_epochs": 20,
  "save_steps": 1908,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.1245618085326356e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}